A háttérzajok elég zavaróak lehetnek a videóhívások során. A Skype új zajelnyomási funkciója ki tudja őket iktatni.

2021. 02. 22. | Skype-blogok | Zajszűrés

Akár emberek beszélgetnek, gyerekek játszanak, munkások dolgoznak a szomszéd szobában, vagy a kiskutya üldözi a képzelt szörnyet a teraszon, a háttérzaj valóban zavaró lehet, miközben a Skype-on beszél.

Nos, ezentúl már nem!

Örömmel jelentjük be a legújabb háttérzaj-elnyomási funkciónk kiadását a Skype asztali appban.* Ez az eredetileg a Microsoft Teamshez készült új funkció a saját hangján kívül szinte mindent elnémít, amikor értekezleten vesz részt a Skype-on.

A működését megtekintheti az alábbi videóban.

Zajelnyomás gif


Ha aktiválni szeretné ezt a praktikus új funkciót a Skype asztali appban, olvassa el ezt a cikket a támogatási szakaszban.

A funkció alapjául szolgáló technológia

A funkció alapját képező technológia ismertetése: elemzi a hangcsatornáját, majd speciálisan betanított mély neurális hálózatokat használva kiszűri a zajt anélkül, hogy hatással lenne a beszélő hangjára. Míg a hagyományos zajelnyomási algoritmusok egyszerű, folyamatos zajokat, például a ventilátor hangját tudják kezelni, a neurális hálózatok képesek megtanulni a beszéd és az összetettebb, váltakozóbb zajok, például egy billentyűzeten való gépelés vagy a csomagolóanyag reccsenése és igen, a vonító kutya hangja közötti különbséget.

Ez a technológia a gépi tanulásra alapozva megtanulja a tiszta beszéd és a zajok közötti különbséget, és gyakran mesterséges intelligenciaként hivatkoznak rá. Egy reprezentatív adatkészlet szolgál a gépi tanulási modell betanítására, hogy a Skype felhasználói gyakorlatában előforduló legtöbb helyzetben működjön. Az adatkészletben megfelelő sokszínűségnek kell lennie a tiszta beszédet, a zajtípusokat és a környezeteket illetően, amelyekből felhasználóink az online hívásokhoz csatlakoznak.

Ennek a sokszínűségnek az eléréséhez az általunk használt adatkészlet megközelítőleg 760 órányi tiszta beszédet és 180 órányi zajadatot tartalmaz. A Microsoft szigorú adatvédelmi szabványainak való megfelelőség érdekében ehhez az adatkészlethez semmilyen ügyféladatot nem gyűjtöttünk. Ehelyett nyilvánosan elérhető adatokat használtunk, illetve közösségi kiszervezés keretében adott forgatókönyveket gyűjtöttünk össze. A tiszta beszédhez női és férfi beszédet használtunk azonos arányban. Adatokat gyűjtöttünk több mint 10 nyelvből is, beleértve a tonális nyelveket is annak biztosításához, hogy a szavak tónusának torzításával a modell ne módosítsa a mondatok jelentését. Zajos adatok esetén felvettünk 150 zajtípust a különféle forgatókönyvek lefedésére, amelyekkel felhasználóink találkozhatnak, a billentyűzeten való gépeléstől a csobogó vízen keresztül a horkolásig és így tovább. Felvettünk érzelmi kifejezéseket is a tiszta beszédünkhöz, így a különféle megnyilvánulásokat, például a nevetést vagy sírást nem nyomja el a funkció. A beszédre jelentős hatással vannak annak a környezetnek a jellegzetességei is, amelyből a felhasználók csatlakoznak a Skype-értekezletekhez. Ennek a sokszínűségnek a megragadásához modellünket több mint 3000 valós terembeli környezetből és 115 000 mesterségesen létrehozott teremből származó adattal tanítottuk be.

Mivel mély tanulást használunk, fontos, hogy hatékony modellbetanítási infrastruktúrával rendelkezzünk. A Microsoft Azure használatával lehetővé tesszük csapatunknak, hogy kifejlessze a gépi tanulási modellünk javított verzióit. Újabb kihívást jelent az eredeti tiszta beszéd kinyerése a zajból, amit oly módon kell elvégezni, hogy az emberi fül természetesnek és kellemesnek érezze. Mivel nincsenek az emberi észlelésre vonatkozó objektív mérőszámok, kifejlesztettünk egy keretrendszert, amely lehetővé tette, hogy feldolgozott hangmintákat küldjünk a közösségi szállítóknak, ahol a tesztelők egy egytől ötig terjedő skálán értékelték a hangminőséget az átlagos véleménypontszámok (MOS) megadásához. Ezeket az emberi értékeléseket használva ki tudtunk fejleszteni egy új érzékelési mérőszámot, amely a szubjektív humán értékelésekkel lehetővé tette számunkra, hogy a mély tanulási modelljeink fejlesztésében gyors haladást érjünk el.

A kutatás fokozásához ezen a területen nyílt forrásúvá tettük az adatkészletünket és az észlelési minőségre vonatkozó közösségi keretrendszerünket. Ez volt az alapja három versenynek, amelyeket az Interspeech 2020, az Interspeech 2021 és az ICASSP 2021 konferencia részeként tartottunk az alábbiak szerint: Deep Noise Suppression Challenge – INTERSPEECH 2021 – Microsoft Research

Végül létrehoztuk a mély tanulási modellünket, hogy valós időben hatékonyan működjön a Skype asztali appban. Az emberi érzékelés optimalizálásával megfelelő egyensúlyt értünk el a minőség és az összetettség között, ami azt jelenti, hogy a felhasználóink által használt legtöbb windowsos eszköz ki tudja használni a mesterséges intelligenciára épülő zajelnyomást. Ez a funkció elérhető Macen is, és csapatunk dolgozik azon, hogy a funkció mobilplatformokon is használható legyen.

*A zajelnyomási funkció jelenleg nem érhető el a Skype webes és mobilverzióin.