Manche Geräusche können in Videoanrufen sehr störend sein. Die neue Geräuschunterdrückung in Skype sorgt jetzt für Ruhe!

22.02.2021 | Skype-Blogs Geräuschunterdrückung

Stimmengewirr, spielende Kinder, Baulärm von nebenan oder Ihr Hund, der imaginäre Monster lautstark von der Terrasse vertreibt, Hintergrundgeräusche können in einer Skype-Unterhaltung sehr störend sein.

Damit ist jetzt Schluss!

Heute dürfen wir Ihnen mitteilen, dass die brandneue Unterdrückung von Hintergrundgeräuschen jetzt in der Skype-Desktopanwendung verfügbar ist.* Die ursprünglich für Microsoft Teams entwickelte Funktion blendet bei Skype-Besprechungen bis auf Ihre Stimme alle weiteren Geräusche aus.

Das folgende Video zeigt die neue Funktion in Aktion.

Noise suppression gif


Wie Sie diese praktische Funktionsneuheit in Ihrer Skype-Desktopanwendung aktivieren, erfahren Sie in diesem Artikel im Supportbereich.

Die Technologie hinter der Funktion

So funktioniert die zugrunde liegende Technologie: Die Funktion analysiert Ihre Audiofeeds und filtert Geräusche mithilfe eigens trainierten Deep Neural Networks heraus – bis auf die Stimme der Sprecherinnen und Sprecher. Während herkömmliche Algorithmen zur Geräuschunterdrückung einfache, gleichbleibende Geräusche wie das Surren eines Ventilators erkennen können, erlernen diese neuronalen Netze die Unterschiede zwischen Sprache und komplexeren, unregelmäßigen Geräuschen. Dazu gehören etwa das Tippen auf einer Tastatur, das Knistern einer Lebensmittelverpackung und natürlich auch Hundegebell.

Diese Technologie basiert auf Machine Learning (ML), um die Unterschiede zwischen normaler Sprache und Geräuschen zu erlernen. Sie wird häufig auch als künstliche Intelligenz (KI) bezeichnet. Das ML-Modell wird anhand eines repräsentativen Datensatzes trainiert, damit es in typischen Skype-Situationen gut funktioniert. Der Datensatz muss abwechslungsreich in Bezug auf normale Sprache, Geräuschtypen und Umgebungen sein, in denen unsere Nutzer Onlineanrufe tätigen.

Um dies zu erreichen, verwenden wir einen Datensatz mit ca. 760 Stunden reinen Sprachdaten und 180 Stunden Geräuschdaten. Zur Einhaltung der strengen Datenschutzstandards von Microsoft wurden keine Kundendaten in den Datensatz aufgenommen. Wir haben uns auf öffentlich verfügbare Daten oder Crowdsourcing beschränkt, um Daten für bestimmte Geräuschkulissen zu sammeln. Für normale Sprache haben wir zu gleichen Teilen weibliche und männliche Stimmen verwendet. Darüber hinaus haben wir Daten aus mehr als 10 Sprachen gesammelt, darunter auch tonale Sprachen. So stellen wir sicher, dass die Bedeutung eines Satzes vom Modell nicht durch tonale Verzerrungen der Wörter verändert wird. Die Geräuschdaten decken mehr als 150 Geräuscharten ab, um die verschiedenen Nutzerszenarien abzubilden – vom Tippen auf der Tastatur über fließendes Wasser bis hin zu Schnarchgeräuschen. Auch Emotionen wurden in der reinen Sprache beibehalten. Gefühlsäußerungen wie Lachen oder Weinen werden also nicht unterdrückt. Die Merkmale der Umgebung, von der aus unsere Nutzer an einer Skype-Besprechung teilnehmen, wirken sich ebenfalls erheblich auf die Sprachsignale aus. Um die ganze Vielfalt zu erfassen, haben wir unser Modell mit Daten aus mehr als 3.000 realen Raumumgebungen und mehr als 115.000 "künstlichen" Räumen trainiert.

Da wir Deep Learning verwenden, benötigen wir unbedingt auch eine leistungsfähige Infrastruktur für das Modelltraining. Wir verwenden Microsoft Azure, damit unser Team optimierte Versionen unseres ML-Modells entwickeln kann. Eine weitere Herausforderung besteht darin, die ursprüngliche, reine Sprache aus dem Geräuschspektrum zu extrahieren. Diese sollte vom menschlichen Ohr als natürlich und angenehm wahrgenommen werden. Da es keine objektiven Metriken gibt, die stark mit der menschlichen Wahrnehmung korrelieren, haben wir ein eigenes Framework entwickelt. So konnten wir aufbereitete Audio-Samples an Crowdsourcing-Anbieter versenden, um die Audioqualität von menschlichen Zuhörern auf einer 1- bis 5-Sterne-Skala bewerten zu lassen und Mean Opinion Scores (MOS) zu erhalten. Diese menschlichen Bewertungen bildeten die Grundlage für unsere neue Wahrnehmungsmetrik. Ergänzt durch subjektive menschliche Bewertungen ermöglichten sie uns schnelle qualitative Fortschritte bei unseren Deep-Learning-Modellen.

Um unsere Forschung voranzubringen, haben wir unseren Datensatz und das Crowdsourcing-Framework rund um die Wahrnehmungsqualität als Open-Source-Code zur Verfügung gestellt. Auf dieser Grundlage wurden im Rahmen der Konferenzen Interspeech 2020, Interspeech 2021 und ICASSP 2021 drei Wettbewerbe ausgeschrieben: Deep Noise Suppression Challenge – INTERSPEECH 2021 – Microsoft Research

Schließlich konnten wir unser Deep-Learning-Modell so umsetzen, dass es effizient und in Echtzeit in der Skype-Desktopanwendung ausgeführt werden kann. Durch die optimierte menschliche Wahrnehmung erzielten wir einen guten Kompromiss zwischen Qualität und Komplexität. Das bedeutet, dass die Vorteile unserer KI-basierten Geräuschunterdrückung von den meisten Windows-Geräten unterstützt werden. Diese Funktion ist auch auf dem Mac verfügbar. Derzeit arbeitet unser Team daran, die Funktion auf Mobilgeräte-Plattformen auszuweiten.

*Die Geräuschunterdrückung steht derzeit nicht für Skype im Web oder auf dem Mobilgerät zur Verfügung.