Meluhäiriöt ovat haitallisia videopuhelun aikana. Skypen uusi melunvaimennustoiminto voi poistaa ne!

22.2.2021 | Skype-blogit | Melunvaimennus

Ovatpa kyseessä puhuvat ihmiset, leikkivät lapset, naapurin rakennustyöläiset tai kuistilla omiaan haukkuva koira, taustamelu voi olla todella häiritsevää, kun yrität puhua Skypessä.

Nyt voit unohtaa sen.

Voimme iloksemme kertoa Skype-työpöytäsovelluksen uusimman taustamelun vaimennustoiminnon julkaisusta.* Tämä uusi toiminto on alun perin kehitetty Microsoft Teamsiin, ja se on tarkoitettu vaimentamaan lähes kaikkea melua ääntäsi lukuun ottamatta, kun osallistut Skype-kokoukseen.

Näet sen toiminnassa alla olevassa videoissa.

Kun haluat aktivoida tämän uuden toiminnon Skype-työpöytäsovelluksessasi, lue tämä artikkeli tukiosiossamme.

Teknologia toiminnon takana

Hänelle, joka haluaa ymmärtää toiminnon taustalla olevaa teknologiaa: se toimii analysoimalla äänisyötteen ja suodattamalla sitten melun pois erityisesti opetettujen syvien neuroverkkojen avulla vaikuttamatta puhujan ääneen. Perinteiset melunvaimennusalgoritmit voivat käsitellä yksinkertaista muuttumatonta melua, kuten tuulettimen ääntä. Neuroverkot taas voivat oppia eron puheen ja monimutkaisemman muuttuvan melun, kuten näppäimistön äänen, ruokapakkauksen rapinan ja haukkuvan koiran, välillä.

Tämä teknologia pohjautuu koneoppimiseen, joka oppii selkeän puheen ja melun välisen eron ja jota kutsutaan yleensä tekoälyksi. Koneoppimismallin opettamiseen käytetään tietojoukkoa, joka edustaa Skype-käyttäjiemme useimmin kohtaamia tilanteita. Tietojoukossa on oltava tarpeeksi monimuotoisuutta selkeän puheen, melutyyppien ja niiden ympäristöjen suhteen, joissa käyttäjämme liittyvät verkkopuheluihin.

Tämän monimuotoisuuden saavuttamiseksi käyttämämme tietojoukko sisältää noin 760 tuntia selkeää puhetta ja 180 tuntia melutietoja. Microsoftin ankarien tietosuojastandardien takia mitään asiakastietoja ei ole kerätty tätä tietokantaa varten. Käytimme sen sijaan julkisesti saatavissa olevia tietoja tai joukkoistamista tiettyjen skenaarioiden keräämiseen. Selkeää puhetta varten käytimme tasapainoisesti sekä nais- että miesääniä. Keräsimme lisäksi tietoja yli kymmenellä kielellä, myös tonaalisilla kielillä. Se varmistaa, ettei malli muuta virkkeen merkitystä vääristämällä sanojen äänensävyä. Melutietoina käytimme 150 melutyyppiä: Ne kattavat erilaisia skenaarioita, joihin käyttäjämme voivat törmätä, esimerkiksi näppäimistön, juoksevan veden tai kuorsauksen äänet. Sisällytimme selkeään puheeseen myös tunteita, joten esimerkiksi naurun tai itkun kaltaisia ilmauksia ei estetä. Sen ympäristön ominaisuuksilla, josta käyttäjämme liittyvät Skype-kokoukseen, on suuri vaikutus myös puhesignaaliin. Tämän moninaisuuden kattamiseksi opetimme mallillemme yli 3 000 todellisen huoneympäristön tiedot ja yli 115 000 synteettisesti luodun huoneen tiedot.

Koska käytämme syväoppimista, on tärkeää, että mallin opetuksen infrastruktuuri on tehokas. Tiimimme kehittää koneoppimismallista parannettuja versioita Microsoft Azuren avulla. Alkuperäisen selkeän puheen poimiminen melun seasta on tehtävä niin, että ihminen kuulee äänen mahdollisimman luonnollisena ja miellyttävänä. Ei ole olemassa objektiivista, ihmisen kuulohavaintoa läheisesti vastaavaa mittaustapaa. Siksi kehitimme puitteet, joiden avulla saatoimme lähettää käsitellyt ääninäytteet joukkoistamistoimittajille, joiden ihmiskuuntelijat pisteyttivät niiden äänenlaadun asteikolla yhdestä viiteen tähteä. Näin voimme laskea mielipidepisteiden keskiarvon. Näiden ihmisten antamien pisteiden avulla pystyimme kehittämään uuden havaintoon perustuvan mittaustavan, joka yhdessä ihmisten subjektiivisten pisteiden kanssa mahdollisti meille syväoppimismalliemme nopean parantamisen.

Edistääksemme tämän alan tutkimusta julkaisimme avoimena lähdekoodina tietojoukkomme ja laadun havaintopohjaiset joukkoistamispuitteet. Tämä on ollut perustana kolmelle kilpailulle, joita olemme isännöineet osana Interspeech 2020-, Interspeech 2021- ja ICASSP 2021 -tapahtumia: Deep Noise Suppression Challenge – INTERSPEECH 2021 – Microsoft Research

Lisäksi määritimme syväoppimismallimme toimimaan tehokkaasti Skype-työpöytäsovelluksessa reaaliaikaisesti. Optimoimalla ihmisen kuulohavainnon pystyimme saavuttamaan hyvä suhteen laadun ja monimutkaisuuden välille, ja siksi useimmat käyttäjiemme käyttämät Windows-laitteet voivat hyödyntää tekoälypohjaista melunvaimennustamme. Tämä toiminto on käytettävissä myös Macissa, ja tiimimme pyrkii tuomaan tämän toiminnon mobiiliympäristöihin pian.

*Melunvaimennustoiminto ei ole tällä hetkellä käytettävissä Skypen verkko- eikä mobiiliversiossa.

Skype-blogi