进行视频通话时,噪声干扰并不那么有趣。 Skype 的新降噪功能可以解决此问题!

2021/02/22 | Skype 博客 | 降噪

无论是在交谈的人们、在玩耍的孩子、隔壁的建筑工人,还是想把想象中的怪物从前廊吓跑的宠物狗,当尝试在 Skype 上进行通话时,背景噪声确实会让人分心。

但是,这种情况将不再存在!

我们很高兴地宣布我们发布了 Skype 桌面应用的最新背景降噪功能* 这项新功能最初是针对 Microsoft Teams 开发的,旨在当你使用 Skype 参加会议时,消除除你的声音外的几乎所有声音。

要查看该功能的实际效果,请观看下面的视频。

降噪 GIF


要在 Skype 桌面应用中激活此便捷的新功能,请参阅支持板块中的这篇文章

该功能背后的技术

对于想要了解该功能背后的技术的人们:其工作原理是分析音频源,然后使用经过专门训练的深度神经网络来过滤掉噪声,而不影响说话者的声音。 尽管传统的降噪算法可以解决简单、一致的噪声(如风扇发出的噪声),但是这些神经网络可以学习语音和更复杂、不一致的噪声(比如键盘上的打字声、食物包装纸的嘎吱声,是的,还有那只狗的嚎叫声)之间的区别。

此技术依靠机器学习 (ML) 来学习纯净语音和噪声之间的区别,通常被称为人工智能 (AI)。 使用一个具有代表性的数据集来训练 ML 模型,使其在我们的 Skype 用户遇到的大多数情况下都能工作。 就纯净语音、噪声类型以及用户加入在线电话的环境而言,该数据集中需要有足够的多样性。

为了实现这种多样性,我们使用的数据集包含约 760 小时的纯净语音数据和 180 小时的噪声数据。 为了符合 Microsoft 严格的隐私标准,未针对此数据集收集任何客户数据。 相反,我们使用公开提供的数据或众包来收集特定场景。 对于纯净语音,我们均衡使用了男女语音。 我们还收集了 10 多种语言(包括声调语言)的数据,以帮助确保该模型不会曲解词语的声调,从而改变句子的含义。 对于噪声数据,我们包括了 150 种噪声类型,以涵盖用户可能遇到的从键盘输入、流水到打鼾等各种场景。 我们还在纯净语音中包含了情感,以免诸如笑声或哭泣声之类的表达受到抑制。 用户加入 Skype 会议时所处环境的特征对语音信号也有很大的影响。 为了捕获这种多样性,我们使用来自 3,000 多个真实房间环境和 115,000 多个合成房间的数据来训练我们的模型。

由于我们采用深度学习,因此拥有功能强大的模型训练基础结构很重要。 我们使用 Microsoft Azure,使团队能够开发 ML 模型的改进版本。 从噪声中提取原始纯净语音的另一个挑战需要以一种人耳认为是自然和愉悦的方式。 由于没有与人类感知高度相关的客观指标,因此我们开发了一个框架,该框架使我们能够将处理后的音频样本发送给众包供应商,由人类听众按照一到五星的等级对其音频质量进行评分,以得出平均意见分数 (MOS)。 借助这些人类评分,我们能够开发出一种新的感知指标,再加上人类的主观评分,让我们在改善深度学习模型的质量方面取得了快速的进步。

为了推进这一领域的研究,我们开源了我们的数据集和感知质量众包框架。 这是我们作为 Interspeech 2020、Interspeech 2021 和 ICASSP 2021 会议的一部分举办的三项比赛的基础,如下所示:深度降噪挑战 - INTERSPEECH 2021 - Microsoft Research

最后,我们创建了深度学习模型,以在 Skype 桌面应用上实时高效运行。 通过针对人类感知进行优化,我们能够在质量和复杂性之间实现良好的折衷,这意味着用户使用的大多数 Windows 设备都可以利用基于 AI 的降噪功能。 此功能在 Mac 上也可用,我们的团队也在致力于将此功能引入移动平台。

*降噪功能目前在 Web 或移动版本的 Skype 中不可用。