Шумното разсейване не е много забавно, когато сте във видеоразговор. Новата функция на Skype за потискане на шума може да го предотврати!

22.02.2021 г. | Блог за Skype | Потискане на шума

Независимо дали говорят хора, играят деца, има строителни работници в съседство, или вашето домашно куче гони въображаемо чудовище далеч от предната веранда, фоновият шум може наистина да отвлича вниманието, когато се опитвате да говорите по Skype.

Добре, край на това!

Имаме удоволствието да обявим пускането на най-новата ни функция за потискане на фоновия шум в настолното приложение на Skype.* Първоначално разработена за Microsoft Teams, тази нова функция е предназначена да заглуши почти всичко, с изключение на гласа ви, когато провеждате среща в Skype.

За да я видите в действие, гледайте видеото по-долу.

GIF файл за потискането на шума


За да активирате тази удобна нова функция във вашето настолно приложение на Skype, вижте тази статия в нашия раздел за поддръжка.

Технологията зад функцията

За тези, които искат да разберат технологията, която стои зад функцията: тя работи, като анализира аудио канала ви и след това използва специално обучени дълбоки невронни мрежи, за да филтрира шума, без да засяга гласа на говорещия. Докато традиционните алгоритми за потискане на шума могат да адресират прости, постоянни шумове, като напр. този на вентилатора, тези невронни мрежи могат да научат разликата между речта и по-сложните, непостоянни шумове, като тракането на клавиатура, смачкване на обвивка от храна и, да, това виещо куче.

Тази технология разчита на машинно обучение (МО), за да научи разликата между чистата реч и шума, и често се нарича изкуствен интелект (ИИ). Използва се представителен набор от данни, за да се обучи моделът на МО да работи в повечето ситуации, с които се сблъскват нашите потребители на Skype. Трябва да има достатъчно разнообразие в набора от данни по отношение на чистата реч, типовете шум и средите, от които нашите потребители се присъединяват към онлайн разговори.

За да постигнем това разнообразие, използваният от нас набор от данни съдържа приблизително 760 часа данни за чиста реч и 180 часа данни за шум. За да се спазят строгите стандарти за поверителност на Microsoft, не бяха събирани никакви клиентски данни за този набор от данни. Вместо това използвахме публично достъпни данни или краудсорсинг за събиране на конкретни сценарии. За чистата реч използвахме балансирано женска и мъжка реч. Също така събрахме данни от над 10 езика, включително тонални, за да гарантираме, че моделът не променя значението на изречението, като изкривява тона на думите. За данните за шума включихме 150 вида шум, за да покрием различните сценарии, с които потребителите ни могат да се сблъскат – от писането по клавиатура, през течаща вода, до хъркане и др. Също така включихме емоции в нашата чиста реч, така че изразяванията на чувства, като напр. смях или плач, няма да бъдат потиснати. Характеристиките на средата, от която нашите потребители се присъединяват към събрание на Skype, имат силно въздействие и върху речевия сигнал. За да уловим това разнообразие, обучихме нашия модел с данни от повече от 3000 реални среди и повече от 115 000 синтетично създадени помещения.

Тъй като използваме задълбочено обучение, е важно да разполагаме с мощна инфраструктура за обучение на модели. Използваме Microsoft Azure, за да позволим на нашия екип да разработи подобрени версии на нашия модел за МО. Друго предизвикателство е, че извличането на оригиналната чиста реч от шума трябва да бъде направено по начин, по който човешкото ухо да я възприема като естествена и приятна. Тъй като няма обективни показатели, които да са силно свързани с човешкото възприятие, ние разработихме рамка, която ни позволи да изпращаме обработени аудио мостри на доставчици на краудсорсинг, където хора оценяват качеството на звука им с от една до пет звезди, за да се получат средни оценки на мнението (MOS). С тези оценки от хора успяхме да разработим нова метрика за възприемането, която заедно със субективните оценки на хората ни позволи да постигнем бърз напредък в подобряването на качеството на нашите модели за задълбочено обучение.

За да подобрим изследванията в тази област, ние направихме нашия набор от данни и рамката за краудсорсинг на качеството на възприемането с отворен код. Това бе в основата на три състезания, на които бяхме домакини, като част от конференциите Interspeech 2020, Interspeech2021 и ICASSP 2021, както е посочено тук: Предизвикателство за задълбочено потискане на шума – INTERSPEECH 2021 – проучване на Microsoft

И накрая, създадохме нашия модел за задълбочено обучение, за да работи ефективно в настолното приложение на Skype в реално време. Чрез оптимизиране за човешкото възприятие успяхме да постигнем добър компромис между качество и сложност, което означава, че повечето устройства с Windows, които нашите потребители използват, могат да се възползват от нашето потискане на шума, базирано на ИИ. Тази функция е достъпна и за Mac, а нашият екип работи по въвеждането на тази функция и на мобилни платформи.

*Понастоящем функцията за потискане на шума не е налична в уеб или мобилните версии на Skype.