Støjende distraktioner er ikke sjovt, når du er midt i et videoopkald. Skypes nye funktion til støjundertrykkelse kan afhjælpe det!

22/02/2021 | Skype Blogs | Støjbegrænsning

Uanset om det er mennesker, der taler, børn, der leger, håndværkere hos naboen eller din hund, der skræmmer et imaginært monster væk fra indkørslen kan baggrundsstøj være virkelig distraherende, når du prøver at tale med nogen på Skype.

Men det er slut nu!

Vi er glade for at kunne annoncere udgivelsen af vores seneste funktion til støjundertrykkelse i Skype-skrivebordsappen.* Denne nye funktion er oprindeligt udviklet til Microsoft Teams og er designet til at fjerne lyd fra stort set alt andet end din stemme, når du holder møde på Skype.

Hvis du vil se det i funktion, kan du se videoen herunder.

Hvis du vil aktivere denne praktiske nye funktion i din Skype-skrivebordsapp, kan du se denne artikel i vores supportsektion.

Teknologien bag funktionen

For dem, der ønsker at forstå teknologien bag funktionen: Den fungerer ved at analysere din lydfeed og derefter bruge specialtrænede dybe, neurale netværk til at filtrere støjen fra uden at påvirke talerens stemme. Mens traditionelle algoritmer til støjundertrykkelse kan afhjælpe simpel, vedvarende støj, såsom en ventilator, kan disse neurale netværk lære forskellen mellem tale og mere kompleks, uregelmæssig støj, såsom tastning på et tastatur, knitrende madpapir og ja, den der hylende hund.

Denne teknologi bruger maskinel indlæring (ML) til at lære forskellen mellem tale og støj og betegnes ofte som kunstig intelligens (AI). Der anvendes et repræsentativt datasæt til at træne ML-modellen, så den fungerer i de fleste af de situationer, vores Skype-brugere oplever. Der skal være diversitet nok i datasættet med hensyn til den rene tale, støjtyper og de miljøer, som vores brugere deltager i onlineopkald fra.

For at opnå denne diversitet indeholder de datasæt, vi bruger, cirka 760 timers data med ren tale og 180 timers data med støj. For at overholde Microsofts strenge standarder for beskyttelse af personlige oplysninger blev der ikke indsamlet kundedata til dette datasæt. I stedet brugte vi enten offentligt tilgængelige data eller crowdsourcing til at indsamle specifikke scenarier. Til ren tale brugte vi både kvindelige og mandlige stemmer. Vi indsamlede også data fra mere end 10 sprog, herunder tonesprog, for at sikre, at modellen ikke ændrer en sætnings mening ved at forvrænge ordenes tone. Til støjdata inkluderede vi 150 støjtyper for at dække de forskellige scenarier, vores brugere kan støde på, f.eks. tastaturtastning, løbende vand, snorken med mere. Vi inkluderede også humørikoner i vores rene tale, så udtryk som latter eller gråd ikke undertrykkes. Karakteristika fra det miljø, vores brugere deltager i et Skype-møde fra, har også stor indflydelse på talesignalet. For at registrere diversiteten trænede vi vores model med data fra mere end 3.000 miljøer i rigtige rum og mere end 115.000 syntetisk oprettede rum.

Da vi bruger dyb læring, er det vigtigt at have en effektiv infrastruktur til modeltræning. Vi bruger Microsoft Azure til at lade vores team udvikle forbedrede versioner af vores ML-model. En anden udfordring er, at adskillelse af den oprindelige rene tale fra støjen skal gøres på en måde, som det menneskelige øre opfatter som naturlig og behagelig. Da der ikke findes nogen objektive metrikværdier, der er stærkt korreleret til menneskelig opfattelse, udviklede vi en struktur, der gav os mulighed for at sende behandlede lydprøver til crowdsourcingleverandører, hvor menneskelige lyttere vurderede deres lydkvalitet på en skala fra to til fem stjerner for at producere gennemsnitlige meningsscorer (MOS). Med disse menneskelige vurderinger kunne vi udvikle en ny metrikværdi for opfattelse, som sammen med de subjektive menneskelige vurderinger gav os mulighed for hurtigt at forbedre kvaliteten af vores dybe læringsmodeller.

For at fremme forskningen på dette område lavede vi åben kildekode på vores datasæt og crowdsourcingstrukturen for opfattelseskvaliteten. Dette har været grundlaget for tre konkurrencer, vi stod for som en del af konferencerne Interspeech 2020, Interspeech 2021 og ICASSP 2021 som beskrevet her: Deep Noise Suppression Challenge – INTERSPEECH 2021 – Microsoft Research

Endelig skabte vi vores model til dyb læring, så den kører effektivt på Skype-skrivebordsappen i realtid. Ved at optimere til menneskelig opfattelse kunne vi få en god balance mellem kvalitet og kompleksitet, hvilket betyder, at de fleste af de Windows-enheder, vores brugere anvender, kan drage fordel af vores AI-baserede støjundertrykkelse. Denne funktion er også tilgængelig på Mac, og vores team arbejder på også at gøre funktionen tilgængelig på mobilplatforme.

*Funktionen til støjundertrykkelse er i øjeblikket ikke tilgængelig i web- eller mobilversionerne af Skype.

Skype-blog