Ruídos que causam distração durante chamadas de vídeo não são nada bons. O novo recurso de supressão de ruídos do Skype acaba com esse problema!

22/02/2021 | Blogs do Skype | Cancelamento de ruído

Sejam pessoas conversando, crianças brincando, uma obra ao lado ou seu cachorro latindo para um monstro imaginário no terraço, os ruídos de fundo podem causar muita distração quando você está tentando conversar no Skype.

Bem, isso não é mais um problema!

Temos a satisfação de anunciar o lançamento de nosso mais recente recurso de supressão de ruídos no aplicativo para área de trabalho do Skype.* Desenvolvido originalmente para o Microsoft Teams, esse novo recurso foi criado para silenciar qualquer som que não seja sua voz durante uma reunião no Skype.

Para vê-lo em ação, confira o vídeo abaixo.

Para ativar esse novo recurso útil no aplicativo para área de trabalho do Skype, confira este artigo na nossa seção de suporte.

A tecnologia por trás do recurso

Para quem deseja entender a tecnologia por trás do recurso: ela funciona por meio da análise da sua fonte de áudio e do uso de redes neurais profundas especialmente treinadas para filtrar ruídos sem afetar a voz de quem está falando. Enquanto os algoritmos de supressão de ruídos tradicionais podem tratar ruídos simples e constantes, como o de um ventilador, essas redes neurais podem entender a diferença entre a fala e ruídos mais complexos e inconsistentes, como o som de digitação em um teclado, o barulho de uma embalagem de alimento e até mesmo latidos de cães.

Essa tecnologia conta com o ML (aprendizado de máquina) para identificar a diferença entre uma fala limpa e com ruídos e é frequentemente conhecida como IA (inteligência artificial). Um conjunto de dados representativo é usado para treinar o modelo de ML para funcionar na maioria das situações que nossos usuários do Skype enfrentam. É preciso que haja bastante diversidade no conjunto de dados em termos de fala limpa, tipos de ruídos e ambientes em que os usuários estão participando das chamadas online.

Para obter essa diversidade, o conjunto de dados que usamos contém aproximadamente 760 horas de dados de fala limpos e 180 horas de dados com ruídos. Para estar em conformidade com os padrões de privacidade criteriosos da Microsoft, não coletamos nenhum dado de cliente para esse conjunto de dados. Em vez disso, usamos dados disponíveis publicamente ou o crowdsourcing para coletar cenários específicos. Para falas limpas, usamos uma combinação de vozes masculinas e femininas. Também coletamos dados em mais de dez idiomas, inclusive de línguas tonais, para garantir que o modelo não altere o significado da frase distorcendo o tom das palavras. Para dados de ruído, incluímos 150 tipos de ruído a fim de englobar os diversos cenários com os quais nossos usuários podem se deparar, desde o som de digitação no teclado até ruídos de água, ronco e muitos outros. Também incluímos emoções em nossa fala limpa, para que expressões como risos ou choro não sejam suprimidas. As características do ambiente em que nossos usuários participam de uma reunião do Skype também afetam significativamente o sinal da fala. Para captar essa diversidade, treinamos nosso modelo com dados de mais de 3.000 ambientes de salas reais e mais de 115.000 salas criadas sinteticamente.

Como usamos o aprendizado profundo, é importante ter uma infraestrutura de treinamento de modelo eficiente. Usamos o Microsoft Azure para permitir que nossa equipe desenvolva versões aprimoradas de nosso modelo de ML. Outro desafio de extrair a fala limpa original de contextos com ruídos é que isso precisa ser feito de maneira natural e agradável para a audição humana. Como não há métricas objetivas altamente correlacionadas à percepção humana, desenvolvemos uma estrutura que nos permitiu enviar amostras de áudio processadas a fornecedores de crowdsourcing em que ouvintes humanos avaliaram a qualidade do áudio em uma escala de uma a cinco estrelas para produzir a MOS (pontuação média de opinião). Com essas avaliações humanas, conseguimos desenvolver uma nova métrica de percepção que, junto com as avaliações humanas subjetivas, possibilitaram um rápido progresso na melhoria da qualidade dos nossos modelos de aprendizado.

Para avançar as pesquisas nesse campo, tornamos público nosso conjunto de dados e a estrutura de crowdsourcing de qualidade de percepção. Essa é a base de três competições que organizamos como parte das conferências Interspeech 2020, Interspeech 2021 e ICASSP 2021, conforme descrito em: Deep Noise Suppression Challenge (Desafio de Supressão de Ruídos Profunda) – INTERSPEECH 2021 – Microsoft Research

Por fim, criamos nosso modelo de aprendizado profundo para ser executado de forma eficiente no aplicativo para área de trabalho do Skype em tempo real. Otimizando para percepção humana, conseguimos alcançar uma boa relação entre qualidade e complexidade, o que significa que a maioria dos dispositivos Windows que os nossos usuários estão usando pode tirar proveito da nossa supressão de ruídos baseada em IA. Esse recurso também está disponível no Mac, e nossa equipe está trabalhando para disponibilizá-lo nas plataformas móveis.

*O recurso de supressão de ruídos não está disponível de forma permanente nas versões web ou móvel do Skype.

Blog do Skype