Perturbările zgomotoase nu sunt prea amuzante într-un apel video. Noua caracteristică de suprimare a zgomotului din Skype le poate elimina!

22.02.2021 | Bloguri Skype | Anularea zgomotului

Fie că este vorba de oameni care vorbesc, copii care se joacă, muncitorii în construcții din vecini sau câinele care alungă un monstru imaginar de pe terasă, zgomotul de fundal poate fi foarte deranjant când încercați să vorbiți pe Skype.

Aceasta nu se va mai întâmpla!

Ne pare bine să vă anunțăm lansarea celei mai recente caracteristici de suprimare a zgomotului din aplicația desktop Skype.* Dezvoltată inițial pentru Microsoft Teams, această caracteristică este proiectată să estompeze totul în afară de vocea dvs. în cadrul întâlnirilor pe Skype.

Pentru a o vedea în acțiune, urmăriți videoclipul de mai jos.

Ca să activați această nouă caracteristică utilă în aplicația desktop Skype, consultați acest articol din secțiunea noastră de asistență.

Tehnologia din spatele caracteristicii

Pentru cei care vor să înțeleagă tehnologia din spatele caracteristicii, aceasta funcționează prin analizarea fluxului audio și folosirea unor rețele neurale profunde, special antrenate, pentru a filtra zgomotul fără a afecta vocea vorbitorului. În vreme ce algoritmii tradiționali de suprimare a zgomotului pot elimina zgomotele simple și constante, precum acela al unui ventilator, aceste rețele neurale pot învăța diferența dintre vorbire și zgomotele mai complexe, inconstante, precum tastarea pe o tastatură, foșnetul unui ambalaj de mâncare și, da, chiar și urletul unui câine.

Această tehnologie se bazează pe învățarea programată pentru a învăța diferența dintre vorbire și zgomot și este numită frecvent inteligență artificială. Un set de date reprezentativ se folosește pentru a antrena modelul de învățare programată să funcționeze în majoritatea situațiilor pe care le întâmpină utilizatorii noștri Skype. Trebuie ca setul de date să includă suficientă diversitate în ce privește vorbirea, tipurile de zgomot și mediile din care utilizatorii noștri participă la apeluri online.

Pentru a obține această diversitate, setul de date pe care îl folosim conține aproximativ 760 de ore de date privind vorbirea și 180 de ore de date privind zgomotul. Pentru a respecta standardele stricte de confidențialitate Microsoft, pentru acest set de date nu s-au colectat date de la clienți. În schimb, am folosit date disponibile public sau crowdsourcing pentru a colecta anumite scenarii. Pentru vorbire, am folosit o combinație echilibrată de voci masculine și feminine. Am colectat date din peste 10 limbi, inclusiv unele tonale, pentru a ne asigura că modelul nu schimbă sensul unei propoziții, distorsionând tonul cuvintelor. Pentru datele despre zgomot, am inclus 150 de tipuri de zgomot ca să acoperim diferitele scenarii pe care le pot întâmpina utilizatorii, de la tastarea pe tastatură la apa care curge, la sforăit și așa mai departe. Am inclus și emoțiile în vorbire, pentru ca exprimările precum râsul sau plânsul să nu fie suprimate. Caracteristicile mediului din care utilizatorii participă la o întâlnire Skype au un impact puternic asupra semnalului verbal. Pentru a surprinde această diversitate, ne-am antrenat modelul cu date din peste 3.000 de medii de săli reale și peste 115.000 de săli create artificial.

Deoarece folosim învățarea profundă, este important să avem o infrastructură puternică de antrenare a modelului. Folosim Microsoft Azure pentru a-i permite echipei noastre să dezvolte versiuni îmbunătățite ale modelului de învățare programată. Altă provocare este că extragerea vorbirii originale din zgomot trebuie să se facă într-un mod pe care urechea umană să-l perceapă ca fiind natural și plăcut. Deoarece nu există măsurători obiective corelate cu percepția umană, am creat un cadru care ne-a permis să trimitem eșantioane audio procesate către furnizorii de crowdsourcing, unde ascultători umani au evaluat calitatea sunetului pe o scară de una până la cinci stele, pentru a produce scoruri medii de opinie. Cu aceste evaluări umane, am reușit să dezvoltăm o nouă măsurătoare perceptuală care, împreună cu evaluările umane subiective, ne-a permis să facem progrese rapide în îmbunătățirea calității modelelor de învățare profundă.

Ca să susținem progresul cercetărilor în domeniu, am oferit ca open source setul de date și cadrul de crowdsourcing pentru calitatea perceptuală. Acest lucru a stat la baza a trei competiții pe care le-am găzduit în cadrul conferințelor Interspeech 2020, Interspeech 2021 și ICASSP 2021, după cum se prezintă aici: Provocarea de suprimare a zgomotului profund – INTERSPEECH 2021 - Microsoft Research

În final, am creat modelul de învățare profundă pentru a rula eficient pe aplicația desktop Skype în timp real. Optimizând pentru percepția umană, am reușit să ajungem la un compromis acceptabil între calitate și complexitate, ceea ce înseamnă că majoritatea dispozitivelor Windows pe care le folosesc utilizatorii noștri pot profita de suprimarea zgomotului bazată pe inteligența artificială. Această caracteristică este disponibilă și pe Mac, iar echipa noastră se străduiește să o aducă și pe platformele mobile.

*Caracteristica de suprimare a zgomotului nu este disponibilă în prezent pe versiunile web sau mobile de Skype.

Blogul Skype