As distrações provocadas por ruídos não são nada agradáveis durante videochamadas. A nova funcionalidade de supressão de ruído do Skype pode neutralizá-las.

22/02/2021 | Blogues do Skype | Cancelamento de Ruído

Quer sejam pessoas a falar, crianças a brincar, as obras do apartamento do lado ou o seu cão a afugentar um monstro imaginário da varanda da frente, o ruído de fundo pode ser perturbador quando está a tentar falar no Skype.

Isso acabou!

Estamos felizes por anunciar o lançamento da nossa funcionalidade de supressão de ruído de fundo mais recente na aplicação Skype para computador.* Originalmente desenvolvida para o Microsoft Teams, esta nova funcionalidade foi concebida para silenciar tudo menos a sua voz quando estiver numa reunião no Skype.

Para vê-la em ação, veja o vídeo abaixo.

Gif da supressão de ruído


Para ativar esta útil funcionalidade nova na aplicação Skype para computador, consulte este artigo na nossa secção de suporte.

A Tecnologia Por Trás da Funcionalidade

Para quem pretende compreender a tecnologia por trás da funcionalidade, esta funciona ao analisar o sinal de áudio e, depois, ao utilizar redes neurais profundas especialmente preparadas para filtrar o ruído sem afetar a voz do orador. Enquanto os algoritmos de supressão de ruído tradicionais têm a capacidade de eliminar ruídos simples e consistentes (como os de uma ventoinha), estas redes neurais conseguem aprender a diferença entre o discurso e outros ruídos inconsistentes e mais complexos, como os de escrever num teclado, mexer numa embalagem de plástico ou um cão a ladrar.

Esta tecnologia utiliza a aprendizagem automática para aprender a diferença entre um discurso limpo e os ruídos, sendo normalmente designada inteligência artificial (IA). É utilizado um conjunto de dados representativo para preparar o modelo de aprendizagem automática para funcionar na maioria das situações que ocorrem aos utilizadores do Skype. Tem de haver diversidade suficiente no conjunto de dados em termos de discurso limpo, tipos de ruído e os ambientes a partir dos quais os utilizadores participam em chamadas online.

Para conseguir esta diversidade, o conjunto de dados que utilizamos contém aproximadamente 760 horas de dados de discurso limpo e 180 horas de dados de ruídos. Para estar em conformidade com as rígidas normas de segurança da Microsoft, não foram recolhidos dados de clientes para este conjunto de dados. Foram utilizados dados publicamente disponíveis ou crowdsourcing para a recolha de cenários específicos. Para os dados de discurso limpo, utilizámos uma combinação de discursos de mulheres e de homens. Também recolhemos dados em mais de 10 idiomas, incluindo linguagens tonais, para ajudar a garantir que o modelo não altera o significado de uma frase ao distorcer o tom das palavras. Para os dados de ruído, incluímos 150 tipos de ruídos para abranger os diversos cenários com os quais os nossos utilizadores se podem deparar, desde escrever no teclado, até água a correr, ressonar e muito mais. Também incluímos emoções no nosso discurso limpo, para que as expressões como o riso ou o choro não sejam suprimidas. As caraterísticas do ambiente a partir do qual os nossos utilizadores participam numa reunião do Skype também têm um forte impacto no sinal de discurso. Para captar essa diversidade, preparámos o nosso modelo com dados de mais de 3000 ambientes de salas reais e mais de 115 000 salas criadas de forma sintética.

Uma vez que utilizamos a aprendizagem profunda, é importante ter uma infraestrutura de preparação de modelos avançada. Utilizamos o Microsoft Azure para permitir à nossa equipa desenvolver versões melhoradas do nosso modelo de aprendizagem automática. Outro desafio é a extração de discurso limpo original do ruído. Isto tem de ser feito de forma a que o ouvido humano o compreenda como algo natural e agradável. Como não existem métricas objetivas que estejam altamente correlacionadas com a perceção humana, desenvolvemos uma arquitetura que nos permitiu enviar exemplos de áudio processado a fornecedores de crowdsourcing, nos quais ouvintes humanos classificaram a qualidade do áudio numa escala de uma a cinco estrelas para gerar classificações de opiniões médias (MOS – Mean Opinion Scores). Com estas classificações humanas, foi possível desenvolver uma nova métrica de perceção que, em conjunto com as classificações humanas subjetivas, nos permitiu fazer progressos rápidos na melhoria da qualidade dos nossos modelos de aprendizagem profunda.

Para que a pesquisa neste campo avance, colocámos o nosso conjunto de dados em open-source, bem como a arquitetura de crowdsourcing de qualidade de perceção. Esta tem sido a base de três competições que organizámos como parte das conferências Interspeech 2020, Interspeech 2021 e ICASSP 2021, conforme descrito aqui: Desafio de Supressão de Ruído Profunda – INTERSPEECH 2021 – Microsoft Research

Por fim, criámos o nosso modelo de aprendizagem profunda para que seja eficientemente executado na aplicação Skype para computador em tempo real. Através da otimização para a perceção humana, foi possível chegar a um compromisso entre a qualidade e complexidade, o que significa que a maioria dos dispositivos com Windows que os nossos utilizadores utilizam podem tirar partido da nossa supressão de ruído baseada em IA. Esta funcionalidade também está disponível em computadores Mac e a nossa equipa está a trabalhar para disponibilizá-la em plataformas móveis.

* A funcionalidade de supressão de ruído não está atualmente disponível nas versões Web e para dispositivos móveis do Skype.