Görüntülü arama sırasında etraftan gelen gürültülerin dikkatinizi dağıtmasını istemezsiniz. Skype’ın yeni gürültü bastırma özelliği sizi bu dertten kurtarabilir!

22.02.2021 | Skype Blogları | Gürültü önleme

Siz Skype'ta görüşmenize odaklanmaya çalışırken konuşan insanlar, oyun oynayan çocuklar, yan dairedeki inşaat işçileri veya bahçedeki hayali canavarı korkutup kaçırmaya çalışan köpeğiniz gibi arka plandan gelen gürültüler tüm dikkatinizi dağıtabilir.

Neyse ki artık bunun bir çözümü var!

Skype masaüstü uygulamasında en yeni arka plan gürültüsü bastırma özelliğimizin kullanıma sunulduğunu heyecanla duyuyoruz.* Aslında Microsoft Teams için geliştirilmiş olan bu yeni özellik, Skype'ta toplantı yaparken sizin sesiniz dışındaki neredeyse tüm sesleri bastırmak için tasarlanmıştır.

Nasıl çalıştığını görmek için aşağıdaki videoyu izleyin.

Gürültü bastırma gif'i


Bu yeni ve kullanışlı özelliği Skype masaüstü uygulamanızda etkinleştirmek için destek bölümümüzdeki bu makaleye bakın.

Özelliğin Arkasındaki Teknoloji

Özelliğin arkasındaki teknolojiyi anlamak isteyenler olursa bu özellik, ses akışınızı analiz ederek ve ardından konuşmacının sesini etkilemeden gürültüyü filtrelemek üzere özel olarak eğitilmiş derin sinir ağlarını kullanarak çalışır. Geleneksel gürültü bastırma algoritmaları bir fandan çıkan ses gibi basit ve tutarlı gürültüleri işleyebilirken bu sinir ağları konuşma ile klavyede yazma, yiyecek ambalajının hışırtısı ve susmak bilmeyen o köpek gibi daha karmaşık ve tutarsız sesler arasındaki farkı öğrenebilir.

Bu teknoloji, net konuşma ve gürültü arasındaki farkı öğrenmek için makine öğrenmesinden (ML) faydalanır ve genellikle yapay zeka (AI) olarak adlandırılır. Makine öğrenmesi modelini Skype kullanıcılarımızın yaşadığı çoğu durumda çalışacak şekilde eğitmek için bu durumları temsil eden bir veri kümesi kullanılır. Veri kümesinde net konuşma, gürültü türleri ve kullanıcılarımızın çevrimiçi aramalara katıldıkları ortamlar açısından yeterli çeşitlilik olması gerekir.

Bu çeşitliliği sağlamak için kullanılan veri kümesinde yaklaşık 760 saatlik net konuşma verisi ve 180 saatlik gürültü verisi bulunur. Microsoft'un katı gizlilik standartlarına uygun şekilde hareket etmek için bu veri kümesinde hiçbir müşteri verisi toplanmadı. Bunun yerine belirli senaryoları toplamak için kamuya açık verileri veya kitle kaynaklarını kullandık. Net konuşma için kadınlar ve erkekler tarafından yapılan konuşmaları dengeli olarak kullandık. Ayrıca modelin kelimelerin tonunu bozarak cümlenin anlamını değiştirmemesini sağlamak için ton dilleri de dahil olmak üzere 10'dan fazla dilden veri topladık. Gürültü verileri için klavyede sesinden akan suya, horlamaya ve daha fazlasına kadar kullanıcılarımızın karşılaşabileceği çeşitli senaryoları kapsayacak 150 gürültü türü ekledik. Kahkaha veya ağlama gibi ifadelerin bastırılmaması için net konuşmamıza duyguları da dahil ettik. Kullanıcılarımızın Skype toplantısına katıldıkları ortamın özellikleri de konuşma sinyali üzerinde güçlü bir etkiye sahiptir. Bu çeşitliliği yakalamak için modelimizi 3.000'den fazla gerçek oda ortamından ve 115.000'den fazla sentetik olarak oluşturulmuş odadan alınan verilerle eğittik.

Derin öğrenmeyi kullandığımızdan güçlü bir model eğitim altyapısına sahip olmak önemli. Ekibimizin makine öğrenmesi modelimizin iyileştirilmiş sürümlerini geliştirmesine olanak tanımak için Microsoft Azure kullanıyoruz. Gürültüden özgün net konuşmayı ayıklama sürecindeki bir diğer zorluk da bunu insan kulağına doğal ve hoş olarak gelecek bir şekilde yapmaktır. İnsan algısıyla yüksek oranda ilişkili nesnel ölçütler bulunmadığından ortalama görüş puanları (MOS) oluşturmak için insan dinleyicilerin ses kalitesini bir ile beş yıldız arasında derecelendirdiği kitle kaynak sağlayıcılarına işlenmiş ses örnekleri göndermemize olanak tanıyan bir çerçeve geliştirdik. (MOS). Bu insan derecelendirmeleri sayesinde, öznel insan derecelendirmeleriyle birlikte derin öğrenme modellerimizin kalitesini iyileştirme konusunda hızlı ilerleme kaydetmemizi sağlayanyeni bir algısal ölçüt geliştirmeyi başardık.

Bu alandaki araştırmayı ilerletmek için veri kümemizi ve algısal kalite kitle kaynaklı çalışma çerçevesini açık kaynaklı hale getirdik. Bu, Interspeech 2020, Interspeech 2021 ve ICASSP 2021 konferanslarının bir parçası olarak ev sahipliği yaptığımız ve genel hatları aşağıda verilen üç yarışmanın temelini oluşturdu: Derin Gürültü Bastırma Zorluğu - INTERSPEECH 2021 - Microsoft Research

Son olarak Skype masaüstü uygulamasında gerçek zamanlı olarak ve verimli bir şekilde çalışacak olan derin öğrenme modelimizi oluşturduk. İnsan algısına göre iyileştirme yaparak kalite ve karmaşıklık arasında iyi bir denge kurmayı başardık. Bu da kullanıcılarımızın kullandığı çoğu Windows cihazının yapay zeka tabanlı gürültü bastırma özelliğimizden yararlanabileceği anlamına geliyor. Bu özellik Mac'te de kullanılabilir durumda ve ekibimiz bunu mobil platformlara da taşımak için çalışmaya devam ediyor.

*Gürültü bastırma özelliği şu an için Skype'ın web veya mobil sürümlerinde mevcut değildir.