Le distrazioni rumorose non sono molto divertenti durante una videochiamata. La nuova funzionalità di cancellazione del rumore di Skype può eliminarle.

22/02/2021 | Blog di Skype | Cancellazione del rumore

Che si tratti di persone che parlano, bambini che giocano, muratori che lavorano alla porta accanto o del tuo cane che abbaia al mostro immaginario nel portico, il rumore di sottofondo può essere davvero una fonte di distrazione quando cerchi di parlare su Skype.

Bene, non sarà più così!

Siamo lieti di annunciare il rilascio della nostra ultima funzionalità di cancellazione del rumore di sottofondo nell'app desktop Skype.* Originariamente sviluppata per Microsoft Teams, questa nuova funzionalità è pensata per silenziare praticamente tutto tranne la tua voce durante le riunioni su Skype.

Per vederla in azione, guarda il video di seguito.

GIF cancellazione del rumore


Per attivare questa nuova pratica funzionalità nell'app desktop Skype, consulta questo articolo nella nostra sezione per il supporto.

La tecnologia dietro la funzionalità

Per chi vuole sapere di più sulla tecnologia che si cela dietro questa funzionalità: analizza il feed audio e quindi utilizza reti neurali profonde appositamente addestrate per escludere il rumore senza influire sulla voce di chi parla. Mentre i tradizionali algoritmi di cancellazione del rumore possono processare rumori semplici e coerenti come quello di un ventilatore, queste reti neurali possono imparare a riconoscere la differenza tra il parlato e i rumori incoerenti più complessi, come il rumore dei tasti premuti su una tastiera, lo scricchiolio di una confezione alimentare e, sì, anche quel cane che abbaia.

Questa tecnologia, spesso definita come intelligenza artificiale (IA), si basa sull'apprendimento automatico ("machine learning", ML) per imparare a riconoscere la differenza tra un discorso chiaro e un rumore. Viene utilizzato un set di dati rappresentativo per addestrare il modello ML in modo che funzioni nella maggior parte delle situazioni vissute dagli utenti di Skype. Il set di dati deve contenere informazioni abbastanza diversificate in termini di discorso chiaro, tipi di rumore e ambienti da cui i nostri utenti accedono alle chiamate online.

Per ottenere questa varietà, il set di dati che usiamo contiene circa 760 ore di dati sul discorso pulito e 180 ore di dati sul rumore. Per rispettare i rigorosi standard della privacy di Microsoft, non vengono raccolti dati dei clienti per questo set di dati. Al contrario, abbiamo utilizzato dati disponibili pubblicamente o crowdsourcing per raccogliere dati su scenari specifici. Per i dati sul discorso chiaro, abbiamo usato voci femminili e maschili. Inoltre, abbiamo raccolto dati da oltre 10 lingue, comprese quelle tonali, per assicurarci che il modello non cambi il significato di una frase alterando il tono delle parole. Per i dati sul rumore, abbiamo incluso 150 tipi di rumore per coprire i vari scenari in cui potrebbero trovarsi i nostri utenti, come i tasti premuti su una tastiera, il rumore dell'acqua corrente, il russare e molto altro. Abbiamo anche incluso emozioni nel nostro discorso chiaro affinché espressioni come il suono delle risate o del pianto non vengano cancellate. Anche le caratteristiche dell'ambiente dal quale i nostri utenti accedono a una riunione Skype hanno un forte impatto sul segnale del parlato. Per acquisire quella varietà, abbiamo addestrato il nostro modello con i dati di oltre 3.000 sale riunioni reali e più di 115.000 stanze create sinteticamente.

Da quando sfruttiamo il deep learning, è importante avere un'infrastruttura efficace per l'addestramento di modelli. Noi usiamo Microsoft Azure per consentire ai nostri team di sviluppare versioni migliorate del nostro modello ML. Un'altra difficoltà dell'estrazione di un discorso pulito originale dal rumore è che è necessario farlo in modo che l'orecchio umano percepisca quel parlato come naturale e piacevole. Poiché non esistono metriche oggettive altamente correlate alla percezione umana, abbiamo sviluppato un framework che ci ha consentito di inviare campioni di audio processati a fornitori di crowdsourcing in cui degli ascoltatori hanno valutato la qualità dell'audio su una scala da una a cinque stelle per produrre valori MOS (Mean Opinion Score). Con queste valutazioni umane siamo in grado di sviluppare una nuova metrica percettiva che, insieme alle valutazioni umane soggettive, ci ha permesso di fare rapidi progressi per migliorare la qualità dei nostri modelli di deep learning.

Per accelerare la ricerca in questo campo, abbiamo reso open source il nostro set di dati e il framework di crowdsourcing per la qualità percettiva. Ciò ha rappresentato la base delle tre competizioni che abbiamo organizzato nell'ambito delle conferenze Interspeech 2020, Interspeech 2021 e ICASSP 2021 come descritto qui: Deep Noise Suppression Challenge – INTERSPEECH 2021 - Microsoft Research

Infine, abbiamo creato il nostro modello di deep learning affinché venga eseguito in modo efficiente nell'app desktop Skype in tempo reale. Ottimizzandolo per la percezione umana, siamo riusciti a raggiungere un buon compromesso tra qualità e complessità, il che significa che la maggior parte dei dispositivi Windows dei nostri utenti può sfruttare la funzionalità di cancellazione del rumore basata sull'intelligenza artificiale. Questa funzionalità è disponibile anche su Mac e il nostro team sta lavorando per renderla disponibile anche sulle piattaforme mobili.

*Al momento, la funzionalità di cancellazione del rumore non è disponibile nelle versioni per il Web o per i dispositivi mobili di Skype.