Las distracciones ruidosas no son muy divertidas cuando estás en una videollamada. La característica de eliminación de ruido de Skype puede solucionarlo.

22/02/2021 | Blogs de Skype | Cancelación de ruido

No importa si son personas hablando, niños jugando, los trabajadores de la construcción de al lado o tu mascota ahuyentando a ese monstruo imaginario del porche delantero: el ruido de fondo realmente puede generar distracciones cuando intentas hablar en Skype.

Bien, ¡se ha terminado!

Nos complace anunciar el lanzamiento de nuestra más reciente característica de eliminación de ruido de fondo en la aplicación de escritorio para Skype.* Originalmente desarrollada para Microsoft Teams, esta nueva característica está diseñada para silenciar todo excepto tu voz cuando participas en una reunión en Skype.

Para verla en acción, echa un vistazo al siguiente vídeo.

Para activar esta práctica característica nueva en tu aplicación de escritorio para Skype, consulta este artículo en nuestra sección de ayuda.

La tecnología detrás de la característica

Para aquellos que deseen comprender la tecnología detrás de la característica: funciona analizando la fuente de audio y usando redes neuronales profundasentrenadas especialmente para filtrar el ruido sin afectar a la voz del orador. Si bien los algoritmos tradicionales de eliminación de ruido pueden abordar ruidos sencillos y constantes como el de un ventilador, estas redes neuronales pueden aprender la diferencia entre la voz y los ruidos no constantes y más complejos, como el de la escritura en un teclado, el crujido de una envoltura de comida y, sí, ese perro aullando.

Esta tecnología se basa en el aprendizaje automático (ML) para aprender la diferencia entre voz limpia y ruido, y con frecuencia se le conoce como inteligencia artificial (IA). Un conjunto de datos representativo se usa para entrenar el modelo de ML de modo que funcione en la mayoría de las situaciones que experimentan nuestros usuarios de Skype. Tiene que haber suficiente diversidad en el conjunto de datos en términos de voz limpia, tipos de ruido y los entornos desde los que nuestros usuarios se unen a las llamadas online.

Para lograr esta diversidad, el conjunto de datos que usamos contiene aproximadamente 760 horas de datos de voz limpia y 180 horas de datos de ruido. Para cumplir con los estrictos estándares de privacidad de Microsoft, no se ha recopilado ningún dato de cliente para este conjunto de datos. En su lugar, hemos usado datos disponibles al público o colaboración abierta distribuida para recopilar escenarios específicos. Para la voz limpia hemos establecido un equilibrio entre voz femenina y masculina. También hemos recopilado datos en más de 10 idiomas, incluidas lenguas tonales, para ayudar a garantizar que el modelo no cambia el significado de una oración al distorsionar el tono de las palabras. Para los datos de ruido, hemos incluido 150 tipos de ruido para abarcar los diversos escenarios con los que se pueden topar nuestros usuarios, desde la escritura en un teclado hasta el agua corriendo, los ronquidos y mucho más. También hemos incluido emociones en nuestra voz limpia para que no se eliminen aquellas expresiones como la risa o el llanto. Las características del entorno desde el que nuestros usuarios se unen a una reunión de Skype tienen un fuerte impacto en la señal de voz también. Para capturar esa diversidad, hemos entrenado a nuestro modelo con datos de más de 3000 entornos de habitaciones reales y más de 115 000 salas creadas sintéticamente.

Dado que usamos el aprendizaje profundo, es importante tener una infraestructura de entrenamiento del modelo eficaz. Usamos Microsoft Azure para permitir que nuestro equipo desarrolle versiones mejoradas de nuestro modelo de ML. Otro reto al extraer voz limpia original tiene que hacerse de tal forma que el oído humano lo perciba como natural y agradable. Dado que no hay métricas objetivas que estén altamente correlacionadas con la percepción humana, desarrollamos un marco que nos permitió enviar muestras de audio procesadas a proveedores de colaboración abierta distribuida donde los oyentes humanos calificaban su calidad de audio en una escala de una a cinco estrellas para producir una puntuación de opinión media (MOS). Con estas calificaciones humanas pudimos desarrollar una nueva métrica perceptual que, junto con las calificaciones humanas subjetivas, nos permitió progresar rápidamente para mejorar la calidad de nuestros modelos de aprendizaje profundo.

Para avanzar en la investigación en este campo, hicimos que nuestro conjunto de datos fuera de código abierto, así como el marco de colaboración abierta distribuida de calidad perceptual. Esto ha sido la base de tres competencias que presentamos como parte de las conferencias Interspeech 2020, Interspeech 2021 e ICASSP 2021, tal como se señala aquí: Reto de eliminación de ruido profundo – INTERSPEECH 2021 - Microsoft Research

Por último, hemos creado nuestro modelo de aprendizaje profundo para que se ejecute de forma eficaz en la aplicación de escritorio para Skype en tiempo real. Al optimizar la percepción humana, logramos un buen equilibrio entre calidad y complejidad, lo que significa que la mayoría de los dispositivos Windows que nuestros usuarios utilizan puede aprovechar nuestra característica de eliminación de ruido basada en IA. Esta característica también está disponible en Mac y nuestro equipo está trabajando para llevarla a las plataformas móviles también.

* La característica de eliminación de ruido no está disponible actualmente en las versiones web o móviles de Skype.

Blog de Skype