Lawaaierige afleidingen zijn niet bepaald fijn wanneer je aan het videobellen bent. De nieuwe ruisonderdrukkingsfunctie van Skype kan daar een eind aan maken!
22-02-2021 | Skype-blogs | Ruisonderdrukking
Of het nu pratende mensen zijn, spelende kinderen, bouwvakkers bij de buren of je hond die dat denkbeeldige monster bij de voordeur wegjaagt, achtergrondgeluiden kunnen erg afleidend zijn wanneer je via Skype probeert te praten.
Maar nu niet meer!
We zijn verheugd de release van onze nieuwste ruisonderdrukkingsfunctie in de Skype-desktop-app aan te kondigen.* Deze nieuwe functie, oorspronkelijk ontwikkeld voor Microsoft Teams, is ontworpen om vrijwel alles behalve je stem te onderdrukken wanneer je in Skype vergadert.
Bekijk de onderstaande video om het in actie te zien.
Zie dit artikel in onze ondersteuningssectie om deze handige nieuwe functie in je Skype-desktop-app te activeren.
De technologie achter de functie
Voor degenen die de technologie achter de functie willen begrijpen: het werkt door je audio-feed te analyseren en vervolgens speciaal getrainde uitgebreide neurale netwerken te gebruiken om de geluiden uit te filteren zonder de stem van de spreker te beïnvloeden. Terwijl traditionele ruisonderdrukkingsalgoritmen eenvoudige, consistente geluiden zoals dat van een ventilator kunnen aanpakken, kunnen deze neurale netwerken het verschil leren tussen spraak en ingewikkeldere, inconsistente geluiden zoals het typen op een toetsenbord, het ritselen van een boterhamzakje en ja, ook die blaffende hond.
Deze technologie vertrouwt op machine learning (ML) om het verschil te leren tussen heldere spraak en achtergrondgeluiden, en wordt vaak artificial intelligence (AI) genoemd. Er wordt een representatieve gegevensverzameling gebruikt om het ML-model te trainen, zodat het werkt in de meeste situaties die onze Skype-gebruikers ervaren. De gegevensverzameling moet voldoende divers zijn wat betreft de heldere spraak, de soorten achtergrondgeluid en de omgevingen vanwaaruit onze gebruikers videobellen.
Om deze diversiteit te bereiken, bevat de gegevensverzameling die wij gebruiken ongeveer 760 uur aan heldere-spraakgegevens en 180 uur aan achtergrondgeluidsgegevens. Om aan de strikte privacynormen van Microsoft te voldoen, zijn er voor deze gegevensverzameling geen klantgegevens verzameld. In plaats daarvan hebben we openbaar beschikbare gegevens of crowdsourcing gebruikt om specifieke scenario's te verzamelen. Voor heldere spraak gebruikten we evenveel vrouwelijke als mannelijke spraak. We verzamelden ook gegevens uit meer dan 10 talen, waaronder toontalen, om te helpen verzekeren dat het model de betekenis van een zin niet verandert door de toon van de woorden te vervormen. Voor achtergrondgeluidsgegevens voegden we 150 soorten achtergrondgeluid toe om de diverse scenario's te dekken die onze gebruikers kunnen ervaren, van het getyp op een toetsenbord en lopend water tot snurken en meer. We voegden ook emoties in onze heldere spraak aan de gegevens toe, zodat uitdrukkingen zoals lachen of huilen niet worden onderdrukt. De kenmerken van de omgeving vanwaaruit onze gebruikers aan een Skype-vergadering deelnemen, heeft ook een sterke impact op het spraaksignaal. Om die diversiteit vast te leggen, trainden we ons model met gegevens uit meer dan 3000 echte kamers en meer dan 115.000 kunstmatig gemaakte kamers.
Aangezien we deep learning gebruiken, is het belangrijk een krachtige infrastructuur voor modeltraining te hebben. We gebruiken Microsoft Azure zodat ons team verbeterde versies van ons ML-model kan ontwikkelen. Nog een uitdaging is dat oorspronkelijke heldere spraak zodanig uit de achtergrondgeluiden moet worden geëxtraheerd dat het menselijk oor deze als natuurlijk en aangenaam waarneemt. Aangezien er geen objectieve metingen zijn die sterk gecorreleerd zijn aan menselijke waarneming, ontwikkelden we een raamwerk waarmee we verwerkte audiosamples konden verzenden naar crowdsourcing-leveranciers, waar menselijke luisteraars de audiokwaliteit op een schaal van 1 t/m 5 sterren beoordeelden om een Mean Opinion Score (MOS) te produceren. Met deze menselijke beoordelingen konden we een nieuwe perceptuele meting ontwikkelen waarmee we, samen met de subjectieve menselijke beoordelingen, snel vooruitgang konden boeken in het verbeteren van de kwaliteit van onze deep learning-modellen.
Om het onderzoek op dit gebied te bevorderen, maakten we onze gegevensverzameling open-source, evenals het crowdsourcing-raamwerk voor perceptuele kwaliteit. Dit vormde de basis van drie wedstrijden die we organiseerden als onderdeel van de Interspeech 2020-, Interspeech 2021- en ICASSP 2021-conferentie, zoals hier uiteengezet: Deep Noise Suppression Challenge – INTERSPEECH 2021 – Microsoft Research
Tot slot ontwierpen we ons deep learning-model zodanig dat het efficiënt in realtime wordt uitgevoerd in de Skype-desktop-app. Door het model te optimaliseren voor menselijke waarneming, konden we een goed evenwicht tussen kwaliteit en complexiteit bereiken, wat betekent dat de meeste Windows-apparaten die onze gebruikers gebruiken kunnen profiteren van onze AI-gebaseerde ruisonderdrukking. Deze functie is ook beschikbaar op Mac, en ons team werkt eraan om deze functie ook op mobiele platforms te introduceren.
*De ruisonderdrukkingsfunctie is momenteel niet beschikbaar in de webversie of mobiele versie van Skype.