Rušivé zvuky při videohovorech nejsou nic příjemného. Nová funkce potlačení šumu ve Skypu vám pomůže se jich zbavit!

22. 2. 2021 | Blogy o Skypu | Potlačení šumu

Ať už jde o mluvící lidi, hrající si děti, instalatéry rekonstruující koupelnu u sousedů nebo vašeho psa, který se štěkáním a vytím snaží vyhnat imaginární příšeru z vaší verandy, můžou být zvuky na pozadí, když se snažíte mluvit přes Skype, opravdu nepříjemné.

Teď je s tím konec!

S potěšením oznamujeme vydání naší nejnovější funkce potlačení šumu na pozadí v desktopové aplikaci Skype.* Tato nová funkce byla původně vyvinuta pro Microsoft Teams a jejím cílem je ztišit při schůzce přes Skype prakticky cokoliv kromě vašeho hlasu.

Pokud ji chcete vidět v akci, mrkněte na video níže.

Pokud chcete tuto novou užitečnou funkci v desktopové aplikaci Skype aktivovat, podívejte se na tento článek od naší podpory.

Technologie stojící za touto funkcí

Pokud by vás zajímaly technologie stojící za touto funkcí: funguje to tak, že se analyzuje tok vaší řeči a pak se pomocí speciálně trénované hluboké neurální sítě odfiltruje šum bez toho, aby to mělo vliv na váš hlas. Zatímco tradiční algoritmy potlačení šumu si dokážou poradit s jednoduchými, konzistentními zvuky, jako třeba od ventilátoru, tyto neurální sítě se dokážou naučit rozeznat řeč od složitých, nekonzistentních zvuků, jako jsou psaní na klávesnici, křupnutí při otevření sáčku s nějakými dobrotami a ano, i ten vyjící pes.

Tato technologie se učí rozpoznat rozdíl mezi čistou řečí a šumem pomocí strojového učení (zkratka ML z anglického machine learning) a často se označuje jako umělá inteligence (zkratka AI jako artificial intelligence). K trénování modelu strojového učení se používá reprezentativní datová sada, aby fungoval ve většině situací, do kterých se uživatelé Skypu dostanou. Tato datová sada musí být dostatečně rozmanitá z hlediska čisté řeči, typů šumu a prostředí, ze kterých se uživatelé připojují k online hovorům.

V zájmu této rozmanitosti naše datová sada obsahuje přibližně 760 hodin nahrávek čisté řeči a 180 hodin nahrávek šumů a hluků. Abychom vyhověli přísným standardům Microsoftu v oblasti ochrany osobních údajů, neshromažďovali jsme pro tuto datovou sadu žádná zákaznická data. Místo toho jsme pro specifické scénáře používali veřejně dostupná data nebo crowdsourcing. Pro čistou řeč jsme ve vyváženém poměru použili ženské a mužské hlasy. Shromáždili jsme také data z více než 10 jazyků, včetně tonálních, abychom pomohli zajistit, že model nezmění význam věty zkreslením tónu slov. Pro data představující šum a hluky jsme zahrnuli 150 typů pokrývajících různé situace, do kterých se naši uživatelé můžou dostat, od psaní na klávesnici přes tekoucí vodu po chrápání a další. Do čisté řeči jsme zahrnuli také emoce, aby nedošlo k potlačení výrazů jako smích nebo pláč. Na signál řeči mají také silný vliv charakteristiky prostředí, ze kterých se uživatelé připojují ke schůzkám přes Skype. Abychom zachytili tuto rozmanitost, vytrénovali jsme model pomocí dat z více než 3 000 skutečných místností a více než 115 000 uměle vytvořených .

Jelikož používáme hluboké učení, potřebujeme výkonnou infrastrukturu pro trénování modelu. Používáme Microsoft Azure, aby náš tým mohl vyvíjet vylepšené verze modelu strojového učení. Další výzvou při separování čisté řeči od šumu je, že se musí provést způsobem, který budou lidské uši vnímat jako přirozený a příjemný. Vzhledem k tomu, že neexistují žádné objektivní metriky s vysokou korelací k lidskému vnímání, vyvinuli jsme architekturu, která umožňovala posílat zpracované vzorky zvuků crowdsourcingovým dodavatelům. U nich lidští posluchači hodnotili kvalitu zvuku na stupnici od jedné do pěti hvězdiček a výsledkem bylo tzv. střední skóre mínění, pro které jsme si zavedli zkratku MOS (z anglického mean opinion score). Díky těmto lidským hodnocením jsme dokázali vyvinout novou metriku vnímání, která nám společně se subjektivními lidskými hodnoceními umožnila rychle postupovat vpřed a vylepšovat kvalitu našich modelů hlubokého učení.

V zájmu zlepšení a zrychlení výzkumu v této oblasti jsme naši datovou sadu a architekturu pro crowdsourcingové hodnocení kvality zpřístupnili jako open source. Získali jsme tak základ pro tři soutěže, které jsme pořádali jako součást konferencí Interspeech 2020, Interspeech 2021 a ICASSP 2021. Podrobnější informace o nich najdete tady: Deep Noise Suppression Challenge – INTERSPEECH 2021 – Microsoft Research

Nakonec jsme vytvořili model strojového učení, který je schopný efektivně fungovat v desktopové aplikaci Skype v reálném čase. Díky optimalizaci pro lidské vnímání jsme mohli dosáhnout dobrého kompromisu mezi kvalitou a složitostí, takže se potlačení šumu na základě umělé inteligence dá využívat na většině současných desktopových zařízení s Windows. Tato funkce je také k dispozici na Macu a náš tým pracuje na jejím zpřístupnění na mobilních platformách.

*Funkce potlačení šumu není momentálně dostupná ve webové verzi ani v mobilních verzích Skypu.

Blog o Skypu