Les bruits environnants peuvent être extrêmement dérangeants pendant les appels vidéo. La nouvelle fonctionnalité de suppression du bruit de Skype permet de les éliminer.

22/02/2021 | Blogs Skype | Réduction du bruit

Personnes discutant, enfants en train de jouer, ouvriers travaillant sur un chantier à proximité, aboiements, etc., les bruits de fond peuvent être véritablement gênants lorsque vous parlez sur Skype.

Vous pouvez désormais profiter d’échanges agréables avec vos interlocuteurs

grâce à la nouvelle fonctionnalité de suppression du bruit disponible dans l’application de bureau Skype.* Développée à l’origine pour Microsoft Teams, cette fonctionnalité est conçue pour supprimer tous les bruits à l’exception de votre voix, lorsque vous participez à des réunions sur Skype.

Découvrez-la en action dans la vidéo ci-dessous.

Image GIF illustrant la suppression du bruit


Pour plus d’informations sur l’activation de cette fonctionnalité pratique dans l’application de bureau Skype, consultez cet article de notre section dédiée à l’assistance technique.

Découvrez la technologie derrière la fonctionnalité

La technologie derrière cette fonctionnalité analyse votre flux audio, puis utilise des réseaux neuronaux profonds spécialement entraînés pour filtrer le bruit sans modifier la voix de l’intervenant. Si les algorithmes traditionnels de suppression du bruit peuvent traiter les bruits simples et homogènes tels que celui d’un ventilateur, ces réseaux neuronaux peuvent apprendre la différence entre la parole et des bruits incohérents plus complexes (saisie sur un clavier, froissement d’un emballage alimentaire, aboiements, etc.).

Cette technologie qui utilise l’apprentissage automatique (ou Machine Learning) pour apprendre à distinguer les discours des bruits, est généralement désignée par l’appellation intelligence artificielle (IA). Un jeu de données représentatif permet d’entraîner le modèle Machine Learning à gérer la plupart des situations rencontrées par les utilisateurs de Skype. Celui-ci doit contenir des exemples suffisamment variés de discours, de types de bruits et d’environnements depuis lesquels les utilisateurs participent à des appels en ligne.

Pour obtenir une diversité optimale, le jeu de données que nous utilisons contient environ 760 heures d’exemples de discours et 180 heures d’exemples de bruit. Afin de respecter les normes strictes de confidentialité de Microsoft, nous n’avons recueilli aucune donnée client pour ce jeu de données. Nous avons fait le choix de privilégier les données publiques et le crowdsourcing pour recueillir des scénarios spécifiques. Nous avons par ailleurs utilisé la même proportion d’intervenants féminins et masculins pour les exemples de discours. Nous avons également recueilli des données dans plus de 10 langues, y compris des langues tonales, afin de nous assurer que le modèle ne change pas le sens d’une phrase en déformant le ton des mots. Pour les exemples de bruit, nous avons inclus 150 types de bruit de façon à couvrir la variété des scénarios que peuvent rencontrer les utilisateurs (saisie au clavier, eau qui coule, ronflements, etc.). Nous avons également inclus des émotions dans nos exemples de discours afin que les expressions telles que le rire ou les pleurs ne soient pas supprimées. Les caractéristiques de l’environnement à partir duquel les utilisateurs participent à une réunion Skype impactent aussi fortement le signal discursif. Pour capturer cette diversité, nous avons entraîné notre modèle à l’aide de données issues de plus de 3 000 environnements de salle réelle et plus de 115 000 salles créées synthétiquement.

Comme nous utilisons l’apprentissage profond (ou Deep Learning), il est important de disposer d’une infrastructure puissante pour l’entraînement du modèle. Nous avons recours à Microsoft Azure pour aider notre équipe à développer des versions améliorées de notre modèle Machine Learning. Autre défi de taille : le discours d’origine doit être dissocié des bruits de telle façon qu’il soit perçu comme naturel et plaisant par l’oreille humaine. Comme aucune mesure objective n’est étroitement corrélée à la perception humaine, nous avons développé un cadre afin d’attribuer des notes d’opinion moyennes (Mean Opinion Scores, MOS) aux échantillons audio traités que nous avons envoyés à des fournisseurs de crowdsourcing. À cette étape, des auditeurs humains se chargeaient d’évaluer la qualité audio des échantillons sur une échelle de une à cinq étoiles. Grâce à ces évaluations humaines, nous avons pu développer une nouvelle mesure perceptuelle qui, combinée aux évaluations humaines subjectives, nous a permis d’améliorer rapidement la qualité de nos modèles Deep Learning.

Pour faire progresser les recherches dans ce domaine, nous avons publié en open source notre jeu de données et le cadre de crowdsourcing d’évaluation perceptuelle de la qualité. Ceux-ci ont servi de base à trois concours que nous avons organisés dans le cadre des conférences Interspeech 2020, Interspeech 2021 et ICASSP 2021, comme décrit ici : Deep Noise Suppression Challenge – INTERSPEECH 2021 - Microsoft Research

Enfin, nous avons créé un modèle Deep Learning efficace utilisable en temps réel dans l’application de bureau Skype. La prise en compte de la perception humaine nous a permis d’atteindre un bon compromis entre qualité et complexité. Ainsi, la plupart des appareils Windows dont se servent les utilisateurs peuvent tirer parti de notre fonctionnalité de suppression du bruit basée sur l’IA. La fonctionnalité est aussi disponible sur Mac. Notre équipe travaille à la rendre également accessible sur les plateformes mobiles.

*La fonctionnalité de suppression du bruit n’est pas disponible actuellement dans les versions web et mobile de Skype.