進行視訊通話時,嘈雜的干擾令人感到不悅。 Skype 的全新降噪功能可解決此問題!

2021/02/22 | Skype 部落格 | 噪音消除

不論是人員交談、兒童玩耍、隔壁的建築工人或寵物狗將前廊的假想怪物嚇跑,當您試著透過 Skype 交談時,這類背景雜音很容易令人分心。

現在,您不會再受到這些干擾了!

我們很高興宣布在 Skype 傳統型應用程式中推出最新的背景降噪功能* 此新功能原本是為 Microsoft Teams 所開發,旨在將除了您在 Skype 上開會以外的幾乎一切聲音設為靜音。

若要觀看實際運作方式,請觀看以下影片。

降噪 GIF


若要在您的 Skype 傳統型應用程式中啟用此實用新功能,請參閱支援小節中的這篇文章

此功能背後的技術

如果您想了解此功能背後的技術:它的運作方式是分析您的音訊摘要後,使用專門訓練的深度神經網路來過濾噪音,而不會影響演講者的聲音。 傳統的降噪演算法可處理簡單且一致的噪音 (例如風扇),這些神經網路可學習語音與更複雜且不一致的噪音之間的差異,例如使用鍵盤打字的聲音、食物包裝所發出的嘎吱聲,以及狗的嚎叫聲。

此技術仰賴機器學習 (ML) 來學習乾淨語音與噪音之間的差異,經常也稱為人工智慧 (AI)。 ML 模型會使用具代表性的資料集進行訓練,在 Skype 使用者遇到的大部分情況下正常運作。 就乾淨語音、噪音類型和供使用者加入線上通話的環境而言,資料集內必須有足夠的多元性。

為了達成此多元性,我們使用的資料集包含大約 760 小時的乾淨語音資料和 180 小時的噪音資料。 為了符合 Microsoft 嚴格的隱私權標準,此資料集不會收集客戶資料。 相反地,我們使用公開的可用資料或群眾外包來收集特定案例。 針對乾淨語音,我們平均使用女性和男性語音。 我們也收集超過 10 種語言 (包括聲調語言) 的資料,以協助確保模組不會曲解語言的聲調而導致句子的意思有所變動。 針對噪音資料,我們納入 150 個噪音類型以涵蓋使用者可能會遇到的多種情境,從鍵盤輸入、流水聲,乃至打呼聲等等。 我們也在乾淨語音中加入情感,以充分表達歡笑或哭泣等表現。 使用者加入 Skype 會議的環境特性也會對語音訊號產生非常大的影響。 為了獲得此多元性,我們使用超過 3,000 個真實的會議室環境和超過 115,000 個合成打造之會議室的資料來訓練我們的模型。

由於我們使用深度學習,採用功能強大的模型訓練基礎結構非常重要。 我們使用 Microsoft Azure 供小組開發 ML 模型的改良版本。 從噪音擷取原始乾淨語音的另一項挑戰在於,擷取的語音必須能讓人耳聆聽時感到自然且愉快。 由於沒有任何與人類感知極為相關的目標指標,因此我們開發可讓我們將已處理的音訊樣本傳送給群眾外包廠商的架構,供聽眾針對音訊品質進行評分 (一至五星) 以產生平均意見分數 (MOS)。 透過這些聽眾評分,我們可以開發新的感知指標並搭配主觀人類評分,以快速改善我們的深度學習模型品質。

為了推動此領域的研究,我們開放資料集與感知品質群眾外包架構的原始碼。 這是我們隨 Interspeech 2020、Interspeech 2021 和 ICASSP 2021 會議舉辦的三個競爭的基礎,如下所述:深度降噪挑戰 – INTERSPEECH 2021 - Microsoft Research

最後,我們建立可在 Skype 傳統型應用程式上即時有效執行的深度學習模型。 針對人類感知最佳化後,我們便可在品質與複雜度之間做出適當的取捨,這表示大多數使用者所使用的 Windows 裝置可利用我們的 AI 型降噪功能。 此功能也可在 Mac 上使用,而且我們的小組正在努力將此功能加入行動裝置平台。

*網頁版或行動裝置版 Skype 目前無法使用降噪功能。