集中を妨げるノイズは、ビデオ通話中にはありがたくないものです。 Skype の新しいノイズ抑制機能で撃退しましょう!
2021/02/22 | Skype ブログ | ノイズ キャンセル
人の話し声、遊んでいる子供たち、近隣の建設作業、あるいは玄関で想像上の怪物を追い払おうしているイヌなど、背景ノイズは自分が Skype で話したいときに本当に邪魔になることがあります。
でも、これからは大丈夫です。
このたび、Skype デスクトップ アプリの最新の背景ノイズ抑制機能がリリースされることになりましたのでお知らせします。* 元々は Microsoft Teams のために開発された、この新しい機能の目的は、ユーザーが Skype で会議に参加しているときにユーザー本人の声以外はすべて無音にすることです。
実際の動作については、次のビデオをご覧ください。
この Skype デスクトップ アプリの便利な新機能を有効にする方法については、こちらのサポート セクションの記事をご覧ください。
この機能の背後にある技術
機能の背後にある技術を知りたい方のために説明いたします。この機能はユーザーのオーディオ フィードを解析してから、特別にトレーニングされたディープ ニューラル ネットワークを使用して、発話者の声に影響を与えることなくノイズを除去します。 従来のノイズ抑制アルゴリズムでは、単純な一定のノイズ (たとえば送風機の音) への対処が可能ですが、このニューラル ネットワークは話し声を、複雑な、変化の多いノイズと区別することができます。たとえばキーボードの打鍵音や、食品包装のガサガサという音、そしてほえるイヌです。
この技術は機械学習 (ML) に依存しており、クリーン音声とノイズの違いを学習します。これは人工知能 (AI) と呼ばれることもよくあります。 Skype ユーザーが体験するほとんどの状況で機能できるように、この ML モデルのトレーニングには代表的なデータセットが使用されます。 このデータセットの中では、クリーン音声、ノイズの種類、ユーザーがオンライン通話に参加する環境という点で十分な多様性が必要です。
この多様性を達成するために、私たちが使用するデータセットの中には約 760 時間分のクリーン音声データと 180 時間分のノイズ データが含まれています。 Microsoft の厳格なプライバシー標準に準拠するために、このデータセットの収集ではお客様のデータは除外されています。 代わりに、一般的に入手可能なデータまたはクラウドソーシングを利用して、特定のシナリオのデータを収集しました。 クリーン音声については、女性と男性の両方の話し声を使用しています。 また、収集したデータの言語は 10 を超えています。これには声調言語も含まれており、単語の声調をゆがめることによってモデルがセンテンスの意味を変えることがないようにするのに役立っています。 ノイズ データについては、150 種類を超えるノイズを集めており、ユーザーが遭遇すると思われる多様なシナリオをカバーします。たとえばキーボードの打鍵や、流れる水、いびきなどです。 クリーン音声の中には感情も含まれているので、笑い声や叫び声が抑制されることはありません。 ユーザーが Skype 会議に参加する環境の特性も、音声シグナルに強く影響します。 その多様性を取り込むために、モデルのトレーニングには 3,000 を超える実際の室内環境と 115,000 以上の人工的に作られた部屋からのデータが使用されています。
ディープ ラーニングを使用しているので、モデル トレーニングのインフラストラクチャがパワフルであることが重要です。 私たちのチームは Microsoft Azure を使用しているので、より良いバージョンの ML モデルを開発することができます。 もう一つの課題は、元のクリーン音声をノイズから取り出すときに、それが人間の耳に自然に、快適に感じられるようにすることです。 人間の知覚との間に高い相関を持つ客観的なメトリックは存在しないため、私たちはあるフレームワークを開発しました。加工済みのオーディオ サンプルをクラウドソーシング ベンダーに送り、そこで人間の聞き手がオーディオの質を 5 段階評価して平均オピニオン値 (MOS) を生成するというものです。 この人間による評価を利用して、新しい知覚メトリックを開発することができました。人間による主観的な評価と組み合わせて、ディープ ラーニング モデルの質の改善を大きく進歩させることができました。
この分野での研究を前進させるために、私たちのデータセットと知覚的品質クラウドソーシング フレームワークをオープンソース化しました。 これを基礎として、これまでにコンテストを 3 回開催しています。Interspeech 2020、Interspeech 2021、ICASSP 2021 で行われたものですが、その概要はこちらでご覧いただけます: Deep Noise Suppression Challenge – INTERSPEECH 2021 - Microsoft Research
最後に、私たちは Skype デスクトップ アプリ上でリアルタイムで効率的に実行できるようにディープ ラーニング モデルを作成しました。 人間の知覚に合わせて最適化することによって、品質と複雑さの間で良好なトレードオフを達成できました。つまり、ユーザーが使用している Windows デバイスのほとんどで、私たちの AI ベースのノイズ抑制を利用できるということです。 この機能は Mac でも利用でき、私たちのチームはこの機能をモバイル プラットフォームにも届けることができるよう作業しているところです。
*ノイズ抑制機能は、現時点では Web 版とモバイル版の Skype ではご利用いただけません。