Bråk og forstyrrelser er ikke særlig moro når du er i en videosamtale. Skypes nye støydempingsfunksjon kan fjerne det!

22.02.2021 | Skype-blogger | Annullering av støy

Enten det er folk som snakker, barn som leker, byggfolk hos naboen eller hunden din som jager et usynlig monster bort fra inngangspartiet, kan bakgrunnsstøy være svært forstyrrende når du prøver å snakke på Skype.

Men det er det slutt på!

Det er en glede å kunngjøre utgivelsen av vår nyeste funksjon for demping av bakgrunnsstøy i Skype-skrivebordsappen.* Denne nye funksjonen, som opprinnelig ble utviklet for Microsoft Teams, er utformet for å dempe stort sett alt annet enn stemmen din når du er i møte på Skype.

Se videoen nedenfor for å se den i aksjon.

GIF for støydemping


Se denne artikkelen i kundestøttedelen for å aktivere denne nyttige nye funksjonen i Skype-skrivebordsappen.

Teknologien bak funksjonen

For de som ønsker å forstå teknologien bak funksjonen: Den fungerer ved å analysere lydfeeden din og deretter bruke spesialopplærte dype nevralnettverk til å filtrere ut støyen uten å påvirke stemmen til den som snakker. Mens tradisjonelle algoritmer for støydemping kan fjerne enkle, jevne lyder slik som en vifte, kan disse nevralnettverkene lære forskjellen på tale og mer komplekse, ujevne lyder som for eksempel skriving på tastatur, knitring i matemballasje og ja, også den gneldrende hunden.

Denne teknologien er avhengig av maskinlæring (ML) for å lære forskjellen på ren tale og støy og betegnes ofte som kunstig intelligens. Et representativt datasett brukes til å lære opp ML-modellen til å fungere i de fleste situasjonene våre Skype-brukere opplever. Det må være nok mangfold i datasettet når det gjelder ren tale, støytyper og miljøene som brukerne våre blir med i nettbaserte samtaler fra.

For å oppnå dette mangfoldet inneholder datasettet vi bruker, cirka 760 timer med ren tale-data og 180 timer med støydata. I overholdelse av Microsofts strenge personvernstandarder ble ingen kundedata samlet inn til dette datasettet. I stedet brukte vi enten offentlig tilgjengelige data eller nettdugnad til å samle inn bestemte scenarioer. Til ren tale brukte vi en balanse av kvinnelig og mannlig tale. Vi samlet også inn data fra mer enn 10 språk, inkludert tonale språk, for å sikre at modellen ikke endrer meningen i en setning ved å forvrenge tonen i ordene. Når det gjelder støydata, tok vi med 150 støytyper for å dekke de ulike scenarioene brukerne våre kan komme borti, alt fra tastaturskriving til rennende vann til snorking og mer. Vi har også inkludert følelser i vår rene tale, slik at uttrykk som latter eller gråt ikke blir dempet. Kjennetegnene ved miljøet som brukerne våre blir med i et Skype-møte fra, har også en sterk innvirkning på talesignalet. For å fange opp dette mangfoldet har vi lært opp modellen vår med data fra over 3 000 ekte rommiljøer og over 115 000 syntetisk opprettede rom.

Siden vi bruker dyp læring, er det viktig å ha en kraftig infrastruktur for modellopplæring. Vi bruker Microsoft Azure for å la teamet vårt utvikle forbedrede versjoner av ML-modellen vår. En annen utfordring er at uttrekking av ren tale fra støyen må gjøres på en måte der det menneskelige øret oppfatter det som naturlig og behagelig. Siden det ikke er noen objektive måledata med høy korrelasjon til menneskelig persepsjon, har vi utviklet et rammeverk som lar oss sende behandlede lydprøver til nettdugnadsleverandører der menneskelig lyttere har vurdert lydkvaliteten på en skala fra én til fem for å produsere gjennomsnittlige meningspoengsummer. Med disse menneskelige vurderingene kunne vi utvikle et nytt persepsjonsmål som sammen med de subjektive menneskelige vurderingene gjorde det mulig for oss å gjøre rask fremgang i å forbedre kvaliteten på dyplæringsmodellene.

For å fremme forskningen i dette feltet har vi gitt åpen kildekode til datasettet og rammeverket for nettdugnad for persepsjonskvalitet. Dette har vært grunnlaget for tre konkurranser vi har arrangert som en del av konferansene Interspeech 2020, Interspeech 2021 og ICASSP 2021, som skissert her: Deep Noise Suppression Challenge – INTERSPEECH 2021 – Microsoft Research

Og til slutt: vi opprettet vår dyplæringsmodell til å kjøre effektivt på Skype-skrivebordsappen i sanntid. Ved å optimalisere for menneskelig persepsjon oppnådde vi en god balanse mellom kvalitet og kompleksitet, som betyr at de fleste Windows-enheter som brukerne våre bruker, kan dra nytte av støydempingen vår som er basert på kunstig intelligens. Denne funksjonen er også tilgjengelig på Mac, og teamet vårt jobber i tillegg med å bringe funksjonen til mobilplattformer.

*Støydempingsfunksjonen er ikke tilgjengelig for øyeblikket i web- eller mobilversjonene av Skype.