Шум на заднем фоне во время видеозвонков может сильно мешать. Функция шумоподавления в Скайпе избавит вас от этой проблемы!

22.02.2021 | Блоги о Скайпе | Подавление шума

Кто-то разговаривает рядом, дети громко играют и шумят, соседи включили перфоратор, ваша собака увидела кого-то в окне и начала лаять — все это очень отвлекает, когда вы пытаетесь поговорить с кем-либо в Скайпе.

Теперь об этом можно забыть!

Мы рады сообщить о выпуске новейшей функции подавления фонового шума в приложении Скайпа для компьютера.* Изначально эта возможность была создана для Microsoft Teams, а теперь с ее помощью вы сможете избавиться от всех лишних звуков, кроме вашего голоса, и в Скайпе.

Чтобы узнать, как она работает, посмотрите видео ниже.

Чтобы активировать эту полезную функцию в приложении Скайпа для компьютера, см. справочную статью в разделе службы поддержки.

Технологии в основе возможности

Вот как работает эта новая функция: сначала идет анализ потока аудио, а затем специально обученные глубокие нейронные сети отфильтровывают лишний шум, не задевая голос говорящего. Традиционные алгоритмы шумоподавления могут справляться с простыми звуками, например шумом от вентилятора, а вот нейронные сети могут научиться находить разницу между речью и более сложными случайными звуками, такими как печать на клавиатуре, хруст обертки от еды и, да, даже лай собаки.

В основе этой технологии лежит машинное обучение (ML), благодаря которому становится возможным изучить разницу между речью и шумом и которое также известно как искусственный интеллект (ИИ). Репрезентативный набор данных используется для обучения модели ML работе с большинством ситуаций, с которыми сталкиваются пользователи Скайпа. Набор данных должен содержать достаточно разнообразные образцы речи, шума и звуков окружения, из которого наши пользователи присоединяются к онлайн-звонкам.

Чтобы обеспечить это разнообразие, мы использовали набор данных, содержащий около 760 часов чистой речи и 180 часов других звуков. В соответствии со строгими стандартами корпорации Майкрософт по соблюдение конфиденциальности мы не использовали данные наших клиентов. Вместо этого мы собрали общедоступные данные и использовали краудсорсинг, чтобы собрать данные, соответствующие определенным сценариям. Набор образцов речи состоит из женской и мужской речи в одинаковой пропорции. Мы также собрали данные на более чем 10 языках, включая тоновые, чтобы обеспечить точность модели и избежать случаев, когда модель может изменить значение фразы, исказив ее звучание. В набор образцов шума мы включили 150 типов разных звуков, покрывающих большинство сценариев, в которых могут оказать наши пользователи: от печати на клавиатуре до бегущей воды, храпа и многого другого. Кроме того, мы включили эмоции в набор данных речи, чтобы модель не подавляла смех или плач. Характеристики окружающей обстановки, находясь в которой наши пользователи присоединяются к собраниям в Скайпе, тоже играют важную роль. Чтобы отразить их разнообразие, мы использовали при обучении нашей модели данные более чем 3000 реальных условий и более чем 115 000 искусственно созданных.

Для обучения моделей глубокого обучения важна мощная инфраструктура. Мы используем платформу Microsoft Azure, благодаря которой наша команда может разрабатывать улучшенные версии модели ML. Перед нами стояла еще одна задача: мы должны были извлечь оригинальную речь без помех из шума таким образом, чтобы </c0>человеческому уху она была приятна и казалась естественной. Поскольку объективных метрик, описывающих человеческое восприятие, не существует, мы разработали платформу, через которую отправляли обработанные образцы аудио на краудсорсинг, где люди оценивали качество звука по шкале от одной до пяти звезд, чтобы получить среднюю экспертную оценку (MOS). С помощью рейтингов, созданных людьми, мы смогли разработать новую метрику восприятия, которая вместе с субъективной человеческой оценкой позволила нам добиться быстрого улучшения качества наших моделей глубокого обучения.

Мы сделали наш набор данных и краудсорсинговую платформу для оценки восприятия </c0>общедоступными. Они легли в основу трех соревнований, которые мы проводили в рамках конференций Interspeech 2020, Interspeech 2021 и ICASSP 2021, как отмечено здесь: Deep Noise Suppression Challenge — INTERSPEECH 2021 — Microsoft Research

Наконец, мы создали нашу модель глубокого обучения для эффективной работы в приложении Скайпа для компьютера в режиме реального времени. Сделав основным ориентиром человеческое восприятие, мы смогли достичь хорошего компромисса между качеством и сложностью, что означает, что наши пользователи смогут воспользоваться преимуществами шумоподавления на основе ИИ на большинстве устройств с Windows. Эта функция также доступна на Mac, и мы работаем над ее переносом и на мобильные платформы.

*В настоящее время функция шумоподавления недоступна в веб- и мобильных версиях Скайпа.

<<Предыдущая статья

Блог о Скайпе