Шум під час відеовиклику – річ не з приємних. Позбутися його допоможе нова функція заглушення в Skype.

22.02.2021 | Блоґи Skype | Заглушення шуму

Під час розмов у Skype сторонній шум – коли на фоні говорять люди, граються діти, сусіди роблять ремонт або ваша собака ганяє уявного монстра по квартирі – може сильно відволікати.

Але більше можна не турбуватися.

Ми раді представити нову функцію заглушення фонового шуму для класичної програми Skype.* Спочатку функція розроблялася для Microsoft Teams, але тепер вона доступна й у Skype. Вона допоможе заглушити всі сторонні звуки та залишити лише ваш голос.

Щоб побачити, як це працює, перегляньте відео нижче.

Gif-зображення з демонстрацією заглушення шуму


Інструкції про те, як активувати цю нову зручну функцію в класичній програмі Skype, наведено в цій статті з розділу підтримки.

Технології, що лежать в основі функції

Кілька слів про те, як працює нова функція: спочатку аналізується ваш аудіосигнал, а потім за допомогою спеціально навчених глибоких нейронних мереж відфільтровується шум. У результаті чутно лише чистий голос мовця. Традиційні алгоритми заглушення шуму можуть усувати прості постійні шуми, наприклад від вентилятора, а нейронні мережі здатні відрізняти мовлення від складніших шумів, що постійно змінюються, як-от звуків від набору тексту на клавіатурі, хрускоту обгортки або виття собаки.

Щоб відрізнити мовлення від шуму, технологія використовує машинне навчання (МН), яке часто називають штучним інтелектом (ШІ). Щоб технологія ефективно працювала в більшості ситуацій, з якими стикаються користувачі під час спілкування в Skype, для МН використовується репрезентативний набір даних. Цей набір має містити достатньо зразків чистого мовлення, різних типів шумів і звукових середовищ, з яких користувачі приєднуються до онлайн-викликів.

Щоб врахувати якомога більше мовних ситуацій, у набір даних включено близько 760 годин зі зразками чистого мовлення та 180 годин із шумом. У корпорації Майкрософт діють суворі стандарти конфіденційності, тому для цього набору не збиралися жодні клієнтські дані. Натомість ми або використовували загальнодоступні дані, або збирали зразки для конкретних сценаріїв за допомогою краудсорсингу. Для зразків чистого мовлення підбиралися як жіночі, так і чоловічі голоси. Ми також зібрали дані на понад 10 мовах. Серед них є й тональні – це зроблено для того, щоб алгоритм не змінював значення речень, спотворюючи тон, з яким вимовляються слова. У наборі також зібрано зразки 150 різних типів шуму, наприклад від клавіатури, проточної води, хропіння тощо. Також, щоб зберегти природні емоції під час спілкування, ми додали зразки сміху, плачу тощо. На голосовий сигнал також дуже впливають характеристики середовища, з якого користувачі приєднуються до розмови в Skype. Щоб урахувати якомога більше ситуацій, для навчання моделі ми використовували дані з понад 3000 реальних приміщень і понад 115 000 створених штучно.

Для глибокого навчання моделі важливо мати потужну інфраструктуру. Наша команда використовує Microsoft Azure, що дає змогу розробляти покращені версії моделі МН. Крім іншого, чисте мовлення потрібно відділяти від шуму таким чином, щоб воно звучало природно й приємно для людського вуха. Оскільки людське сприйняття голосу неможливо оцінити об’єктивно, ми розробили систему, яка дала змогу передавати оброблені зразки на краудсорсинг, де слухачі оцінювали звук за шкалою від одного до п’яти зірок для отримання середніх оцінок якості. Завдяки цим оцінкам ми змогли розробити новий показник сприйняття, який разом із суб’єктивними людськими оцінками дав змогу швидко покращити якість наших моделей глибокого навчання.

Щоб прискорити дослідження в цій області, ми відкрили вихідний код нашого набору даних і краудсорсингової системи оцінювання якості. На базі цих ресурсів ми провели три конкурси на конференціях Interspeech 2020, Interspeech 2021 і ICASSP 2021. Докладніше про них можна прочитати тут: Конкурс на найкращу технологію заглушення шуму – INTERSPEECH 2021 – Дослідження Microsoft

Насамкінець, ми розробили готову модель глибокого навчання, яка ефективно й у реальному часі заглушує шум у класичній програмі Skype. Завдяки оптимізації оцінки людського сприйняття ми змогли досягти хорошого компромісу між якістю та складністю. Це означає, що наша технологія заглушення шуму на базі ШІ може використовуватися на більшість пристроїв Windows. Ця функція також доступна на Mac, і наша команда працює над версіями для мобільних платформ.

* Функція заглушення шуму наразі недоступна в мобільній і веб-версіях Skype.