Hałasy rozpraszające uwagę nie są zbyt zabawne, gdy prowadzisz rozmowę wideo. Nowa funkcja tłumienia szumu programu Skype pomoże Ci się ich pozbyć!

22/02/2021 | Blogi Skype | Eliminowanie szumów

Rozmowa innych osób, zabawa dzieci, remont u sąsiada lub Twój pupil próbujący odstraszyć tego wyimaginowanego potwora sprzed drzwi — hałasy w tle mogą Cię naprawdę rozpraszać, gdy próbujesz rozmawiać przez Skype’a.

No cóż, już nie!

Z przyjemnością ogłaszamy udostępnienie naszej najnowszej funkcji tłumienia szumów w tle w aplikacji komputerowej Skype.* Ta nowa funkcja, opracowana oryginalnie dla aplikacji Microsoft Teams, ma na celu wyciszenie wszystkiego oprócz Twojego własnego głosu podczas spotkania na Skypie.

Aby zobaczyć ją w akcji, obejrzyj poniższe wideo.

Plik gif dotyczący tłumienia szumów


Aby aktywować tę przydatną nową funkcję w aplikacji komputerowej Skype, zobacz ten artykuł w sekcji pomocy technicznej.

Technologia leżąca u podstaw tej funkcji

Dla tych, którzy chcą zrozumieć technologię leżącą u podstaw tej funkcji: działa ona przez analizowanie strumienia audio, a następnie używa specjalnie wytrenowanych głębokich sieci neuronowych w celu odfiltrowania szumu bez wpływu na głos osoby mówiącej. Tradycyjne algorytmy tłumienia szumów eliminują proste, jednostajne hałasy, takie jak odgłos wentylatora, natomiast te sieci neuronowe mogą nauczyć się odróżniać mowę od bardziej złożonych, niejednolitych hałasów, takich jak pisanie na klawiaturze, szelest zgniatanej kartki lub wyjący pies.

Ta technologia korzysta z uczenia maszynowego, aby nauczyć się odróżniać czystą mowę od szumu i często jest nazywana sztuczną inteligencją. Do wytrenowania modelu uczenia maszynowego jest używany reprezentatywny zestaw danych obejmujący większość sytuacji, z którymi mają do czynienia użytkownicy Skype’a. Zestaw danych musi być wystarczająco zróżnicowany pod względem czystej mowy, typów hałasów i środowisk, z których nasi użytkownicy dołączają do połączeń online.

Aby osiągnąć tę różnorodność, używany przez nas zestaw danych zawiera około 760 godzin czystej mowy i 180 godzin szumu. W celu zapewnienia zgodności z surowymi standardami ochrony prywatności firmy Microsoft na potrzeby tego zestawu danych nie gromadzono żadnych danych klientów. Aby zebrać odpowiednie scenariusze, użyliśmy danych dostępnych publicznie lub za pośrednictwem crowdsourcingu. Na potrzeby czystej mowy użyliśmy mieszanki głosów męskich i żeńskich. Zebraliśmy również dane z ponad 10 języków, w tym języków tonalnych, aby mieć pewność, że model nie zmienia znaczenia zdania przez zniekształcanie tonu słów. W przypadku danych dotyczących hałasu uwzględniliśmy 150 rodzajów hałasu, aby objąć różne scenariusze, z którymi mogą się spotkać nasi użytkownicy, od pisania na klawiaturze, przez lejącą się wodę, po chrapanie i nie tylko. W naszej czystej mowie uwzględniliśmy także emocje, aby ekspresje takie jak śmiech lub płacz nie były wyciszane. Cechy środowiska, z którego nasi użytkownicy dołączają do spotkania Skype, także mają duży wpływ na sygnały mowy. Aby uchwycić tę różnorodność, wytrenowaliśmy nasz model przy użyciu danych z ponad 3000 rzeczywistych pomieszczeń i ponad 150 000 sztucznie wygenerowanych pomieszczeń.

Ze względu na to, że używamy uczenia głębokiego, ważne jest posiadanie zaawansowanej infrastruktury trenowania modeli. Korzystamy z platformy Microsoft Azure, aby nasz zespół mógł opracowywać coraz lepsze wersje modelu uczenia maszynowego. Kolejnym wyzwaniem podczas wyodrębniania oryginalnej, czystej mowy z hałasu, jest zrobienie tego tak, aby ucho ludzkie odbierało ją jako naturalną i przyjemną. Ze względu na to, że nie istnieją żadne obiektywne metryki wysoce skorelowane z percepcją człowieka, opracowaliśmy strukturę, która pozwala nam na wysyłanie przetworzonych próbek audio do dostawców crowdsourcingowych, którzy z kolei prezentowali je swoich użytkownikom i poprosili ich o ocenę jakości dźwięku w skali od jednego do pięciu. Dzięki temu uzyskaliśmy średnie wyniki opinii (MOS, mean opinion scores). Korzystając z tych ocen, mogliśmy opracować nową metrykę percepcyjną, która w połączeniu z subiektywnymi ocenami ludzi pozwoliła nam na szybki postęp w zakresie ulepszania jakości naszych modeli uczenia głębokiego.

Aby przyśpieszyć badania na tym polu, udostępniliśmy nasz zestaw danych jako źródło open-source wraz z crowdsourcingową strukturą jakości percepcyjnej. Stanowiło to podstawę trzech konkursów, które zorganizowaliśmy w ramach konferencji Interspeech 2020, Interspeech 2021 i ICASSP 2021, jak opisano tutaj: Deep Noise Suppression Challenge — INTERSPEECH 2021 — Microsoft Research

Na koniec utworzyliśmy nasz model uczenia głębokiego, aby uruchamiać go wydajnie w aplikacji komputerowej Skype w czasie rzeczywistym. Dzięki optymalizacji pod kątem ludzkiej percepcji byliśmy w stanie osiągnąć dobry kompromis między jakością a złożonością, co oznacza, że większość urządzeń z systemem Windows, z których korzystają nasi użytkownicy, może wykorzystywać naszą technologię tłumienia szumów opartą na sztucznej inteligencji. Ta funkcja jest także dostępna na komputery Mac, a nasz zespół pracuje nad udostępnieniem tej funkcji także na platformach mobilnych.

*Funkcja tłumienia szumu obecnie jest niedostępna w internetowych i mobilnych wersjach Skype’a.