Suara bising ketika melakukan panggilan video akan sangat mengganggu. Fitur peredam kebisingan baru dari Skype dapat menangani masalah ini!

22/02/2021 | Blog Skype | Peredam kebisingan

Suara di latar belakang dapat sangat mengganggu ketika Anda ingin berbicara di Skype, baik itu suara orang berbicara, anak-anak bermain, pekerja konstruksi di samping rumah, atau anjing peliharaan Anda yang menggonggong di teras depan.

Sekarang, tidak lagi!

Kami dengan senang hati mengumumkan peluncuran fitur peredam kebisingan latar belakang terbaru di aplikasi Skype desktop.* Awalnya dikembangkan untuk Microsoft Teams, fitur baru ini dirancang untuk meredam semua suara kecuali suara Anda ketika melakukan rapat menggunakan Skype.

Untuk melihat kehebatannya, tonton video di bawah ini.

Untuk mengaktifkan fitur baru yang bermanfaat ini di aplikasi Skype desktop, lihat artikel ini di bagian dukungan kami.

Teknologi yang Mendukung Fitur Ini

Bagi Anda yang ingin mengetahui teknologi yang mendukung fitur ini: fitur ini bekerja dengan menganalisis umpan audio Anda dan kemudian menggunakan jaringan neural mendalam yang dilatih khusus untuk memfilter kebisingan tanpa memengaruhi suara pembicara. Jika algoritme peredam kebisingan tradisional dapat mengatasi kebisingan konsisten yang sederhana seperti kipas angin, jaringan neural ini dapat mempelajari perbedaan antara ucapan dan suara tidak konsisten yang lebih kompleks, seperti suara mengetik di keyboard, suara pembungkus makanan dibuka, dan tentu saja, gonggongan anjing.

Teknologi ini mengandalkan pembelajaran mesin (ML) untuk mempelajari perbedaan antara suara ucapan dan kebisingan serta sering disebut sebagai kecerdasan buatan (AI). Himpunan data representatif digunakan untuk melatih model ML untuk bekerja di sebagian besar situasi yang dialami oleh pengguna Skype. Harus ada keragaman yang mencukupi dalam himpunan data terkait suara ucapan, jenis kebisingan, dan lingkungan di mana pengguna melakukan panggilan online.

Untuk mencapai keragaman ini, himpunan data yang kami gunakan mencakup sekitar 760 jam data ucapan murni dan 180 jam data suara kebisingan. Guna mematuhi standar privasi Microsoft yang ketat, tidak ada data pelanggan yang dikumpulkan untuk himpunan data ini. Sebagai gantinya, kami menggunakan data yang tersedia secara publik atau melakukan crowdsourcing untuk mengumpulkan skenario tertentu. Untuk suara ucapan murni, kami menggunakan suara wanita dan pria secara berimbang. Kami juga mengumpulkan data dari 10+ bahasa, termasuk bahasa nada, untuk membantu memastikan model tidak mengubah arti kalimat dengan mengubah nada kata yang diucapkan. Untuk data kebisingan, kami menyertakan 150 jenis kebisingan untuk mengikutsertakan berbagai skenario yang mungkin dialami oleh pengguna seperti suara mengetik di keyboard, hingga suara air mengalir, dengkuran, dan lainnya. Kami juga menyertakan emosi dalam ucapan murni sehingga ekspresi seperti tertawa atau menangis tidak akan diredam. Karakteristik lingkungan di mana pengguna melakukan rapat Skype juga memiliki dampak yang besar pada sinyal ucapan. Untuk menangkap keragaman tersebut, kami telah melatih model dengan data dari 3.000 lebih lingkungan ruang nyata dan lebih dari 115.000 ruang yang dibuat secara sintetis.

Karena kami menggunakan pembelajaran mendalam, penting untuk memiliki infrastruktur pelatihan model yang andal. Kami menggunakan Microsoft Azure guna memungkinkan tim kami mengembangkan versi model ML yang disempurnakan. Tantangan lain ketika mengekstrak ucapan murni asli dari suara kebisingan adalah peredaman harus dilakukan sedemikian rupa sehingga peredaman terasa alami dan nyaman di telinga manusia. Karena tidak ada metrik objektif yang sangat berhubungan dengan persepsi manusia, kami mengembangkan kerangka kerja yang memungkinkan kami mengirim sampel audio yang diproses ke vendor crowdsourcing di mana pendengar manusia menilai kualitas audio mereka pada skala satu hingga lima bintang untuk menghasilkan skor opini rata-rata (MOS). Dengan penilaian oleh manusia ini, kami dapat mengembangkan metrik persepsi baru yang, bersama dengan penilaian oleh manusia secara subjektif, memungkinkan kami membuat kemajuan cepat dalam meningkatkan kualitas model pembelajaran mendalam kami.

Untuk menyempurnakan penelitian di bidang ini, kami membuat himpunan data menjadi terbuka dan kerangka kerja crowdsourcing kualitas persepsi. Hal ini telah menjadi dasar dari tiga kompetisi yang kami selenggarakan sebagai bagian dari konferensi Interspeech 2020, Interspeech 2021, dan ICASSP 2021 sebagaimana yang diuraikan di sini: Tantangan Peredaman Kebisingan Mendalam – INTERSPEECH 2021 - Microsoft Research

Terakhir, kami membuat model pembelajaran mendalam untuk dijalankan secara efisien di aplikasi Skype desktop secara real time. Dengan mengoptimalkan persepsi manusia, kami dapat menjaga yang kualitas dan kompleksitas tetap baik, yang berarti bahwa sebagian besar perangkat Windows yang digunakan pengguna kami dapat memanfaatkan peredam kebisingan berbasis AI kami. Fitur ini juga tersedia di Mac dan tim kami sedang berupaya menghadirkan fitur ini di platform seluler juga.

*Fitur peredam kebisingan saat ini belum tersedia di versi web atau seluler Skype.

Blog Skype