Det är inte kul med störande ljud när du sitter i videosamtal. Skypes nya ljuddämpningsfunktion kan göra sig av med det!

2021-02-22 | Skype-bloggar | Brusreducering

Oavsett om det är människor som pratar, barn som leker, byggarbetare hos grannen eller din hund som skäller kan bakgrundsljud vara riktigt störande när du försöker prata med någon på Skype.

Men nu är det slut med det!

Vi är glada över att presentera lanseringen av vår senaste funktion för dämpning av bakgrundsljud i Skype-datorprogrammet.* Den här nya funktionen, som ursprungligen utvecklades för Microsoft Teams, är utformad för att tysta så gott som allt som inte är din röst när du har ett möte i Skype.

Ta en titt på videon nedan om du vill se hur det fungerar.

Mer information om hur du aktiverar den här praktiska nya funktionen i Skype-datorprogrammet finns i den här artikeln i vårt supportavsnitt.

Tekniken bakom funktionen

För de som vill förstå tekniken bakom funktionen: den fungerar genom att analysera ditt ljudflöde och sedan använda specifikt tränade djupa neurala nätverk för att filtrera bort bakgrundsljudet utan att påverka talarens röst. Traditionella algoritmer för ljuddämpning kan hantera enkelt, konstant ljud, till exempel ljudet från en fläkt, men de här neurala nätverken kan dessutom lära sig skillnaden mellan tal och mer komplexa, föränderliga ljud som när någon skriver på ett tangentbord, en matförpackning som öppnas, och ja, också en ylande hund.

Den här tekniken utnyttjar maskininlärning (ML) för att lära sig skillnaden mellan rent tal och brus, och kallas ofta för artificiell intelligens (AI). En representativ datamängd används för att träna ML-modellen så att den fungerar i de flesta situationer som våra Skype-användare upplever. Det måste finnas tillräckligt med mångfald i datamängden när det gäller rent tal, brustyper och de miljöer som våra användare befinner sig i när de ansluter till onlinesamtal.

För att få den här mångfalden innehåller datamängden som vi använder ungefär 760 timmar data med rent tal och 180 timmar data med bakgrundsljud. För att uppfylla Microsofts strikta sekretesstandarder samlade vi inte in några kunddata för den här datamängden. Istället använde vi antingen offentligt tillgängliga data eller crowdsourcing för att samla in specifika scenarier. För våra taldata använde vi en balans mellan kvinnligt och manligt tal. Vi samlade också in data från mer än 10 språk, inklusive tonspråk, för att säkerställa att modellen inte ändrar innebörden i en mening genom att förvränga ordens ton. Våra brusdata omfattade 150 olika typer av bakgrundsljud för att täcka de olika scenarier som våra användare kan stöta på, från tangentbordsknappar till rinnande vatten, snarkningar och mycket mer. Vi tog också med känslor i vår uppsättning med rent tal så att uttryck som skratt eller gråt inte dämpas. De miljöer våra användare befinner sig i när de går med i ett Skype-möte har också stor påverkan på talsignalen. För att ta den mångfalden i beaktande tränade vi vår modell med data från mer än 3 000 rumsmiljöer och mer än 115 000 syntetiskt skapade rum.

Eftersom vi använder djupinlärning är det viktigt att ha en kraftfull infrastruktur för modellträning. Vi använder Microsoft Azure så att vårt team kan utveckla förbättrade versioner av vår ML-modell. En annan utmaning med att extrahera ursprungligt rent tal från bakgrundsljudet är att det måste göras på ett sätt som det mänskliga örat uppfattar som naturligt och behagligt. Eftersom det inte finns några objektiva mått med hög korrelation till mänsklig perception utvecklade vi ett ramverk som gjorde det möjligt för oss att skicka bearbetade ljudprover till leverantörer av crowdsourcing där mänskliga lyssnare betygsatte ljudkvaliteten på en skala från ett till fem. På det sättet fick vi en genomsnittlig åsiktspoäng (MOS, mean opinion score). Med dessa mänskliga omdömen kunde vi utveckla ett nytt perceptionsmått som, tillsammans med de subjektiva mänskliga omdömena, gjorde att vi snabbt kunde förbättra kvaliteten på våra djupinlärningsmodeller.

För att främja forskning inom detta område har vi använt öppen källkod för vår datamängd och ramverket för crowdsourcing av den perceptuella kvaliteten. Detta har legat till grund för tre tävlingar som vi var värd för som en del av konferenserna Interspeech 2020, Interspeech 2021 och ICASSP 2021, enligt beskrivningen här: Deep Noise Suppression Challenge – INTERSPEECH 2021 – Microsoft Research

Avslutningsvis skapade vi vår djupinlärningsmodell så att den kan köras effektivt i Skype-datorprogrammet i realtid. Genom att optimera för mänsklig perception kunde vi uppnå en bra avvägning mellan kvalitet och komplexitet, vilket innebär att de flesta Windows-enheter som våra användare använder kan dra nytta av vår AI-baserade ljuddämpning. Den här funktionen är också tillgänglig på Mac, och vårt team arbetar med att göra den tillgänglig på mobila plattformar.

*Ljuddämpningsfunktionen är för närvarande inte tillgänglig i webb- eller mobilversionerna av Skype.

Skype-bloggen