वीडियो कॉल पर शोर-शराबा होने से कॉल ज़्यादा मज़ेदार नहीं रहती है. Skype की नई नॉइस सप्रेशन सुविधा से इस समस्या से छुटकारा मिल सकता है!
22/02/2021 | Skype ब्लॉग | Noise cancellation
चाहे लोग बातें कर रहे हों, बच्चे खेल रहे हों, घर के आस-पास निर्माण कार्य चल रहा हो या आपका पालतू डॉगी सामने के पोर्च से उस काल्पनिक राक्षस को दूर भगा रहा हो, Skype पर बात करने की कोशिश करते समय पृष्ठभूमि में होने वाला शोर वाकई बहुत ध्यान भटकाने वाला हो सकता है.
खैर, अब ऐसा नहीं होगा!
Skype डेस्कटॉप ऐप में नवीनतम अपनी पृष्ठभूमि नॉइस सप्रेशन सुविधा की घोषणा करते हुए हमें खुशी हो रही है.* मूल रूप से Microsoft Teams के लिए डेवलप की गई यह नई सुविधा आपके Skype में मीटिंग में होने के दौरान आपकी आवाज़ के अलावा अन्य सभी आवाज़ों को मौन करने के लिए बनाई गई है.
यह देखने के लिए कि यह कैसे कार्य करता है, नीचे वीडियो देखें.
इस सुविधाजनक नई सुविधा को अपने Skype डेस्कटॉप ऐप में सक्रिय करने के लिए, हमारे सहायता अनुभाग में यह आलेख देखें.
इस सुविधा के पीछे की तकनीक
जो लोग इस सुविधा के पीछे की तकनीक समझना चाहते हैं, उनके लिए: यह आपके ऑडियो फ़ीड का विश्लेषण करके और फिर स्पीकर की आवाज़ को प्रभावित किए बिना शोर को फ़िल्टर करने के लिए खास तौर से प्रशिक्षित डीप न्यूरल नेटवर्क का उपयोग करके काम करती है. जहाँ पारंपरिक नॉइस सप्रेशन एल्गोरिद्म सरल, लगातार आने वाली आवाज़ों जैसे की पंखे की आवाज़ की समस्या का समाधान कर पाती हैं, वहीं ये न्यूरल नेटवर्क्स वाक् और अधिक जटिल, असंगत आवाज़ों जैसे किसी कीबोर्ड पर टाइप करना, खाने के रैपर की खुरखुराहट और हाँ, उस चिल्लाने वाले डॉगी की आवाज़ों के बीच के अंतर को जान सकते हैं.
यह तकनीक स्पष्ट वाक् और शोर के बीच के अंतर को जानने के लिए मशीन लर्निंग (ML) पर निर्भर करती है और अक्सर इसे कृत्रिम बुद्धिमत्ता (AI) के रूप में जाना जाता है. ML मॉडल को ऐसी अधिकांश परिस्थितियों के लिए प्रशिक्षित करने हेतु एक प्रतिनिधि डेटासेट का उपयोग किया जाता है, जिनका हमारे Skype उपयोगकर्ता अनुभव करते हैं. स्पष्ट वाक्, शोर के प्रकार और जिन परिवेशों से हमारे उपयोगकर्ता कॉल्स में शामिल हो रहे हैं, उनके डेटासेट में पर्याप्त भिन्नता होनी चाहिए.
यह भिन्नता पाने के लिए, हम जिस डेटासेट का उपयोग करते हैं, उसमें लगभग 760 घंटे का स्पष्ट वाक् डेटा और 180 घंटे का नॉइस डेटा शामिल होता है. Microsoft के सख्त गोपनीयता मानकों के संगत होने के लिए, इस डेटासेट में कोई ग्राहक डेटा एकत्र नहीं किया गया था. इसके बजाय, हमने विशिष्ट परिदृश्यों को एकत्र करने के लिए या तो सार्वजनिक रूप से उपलब्ध डेटा या क्राउडसोर्सिंग का उपयोग किया. स्पष्ट वाक् के लिए हमने महिला और पुरुष के वाक् संतुलन का उपयोग किया है. हमने 10 से अधिक भाषाओं से भी डेटा एकत्र किया, जिसमें लहजे वाली भाषाएँ शामिल हैं, ताकि यह सुनिश्चित हो सके कि मॉडल में शब्दों की टोन बिगड़कर किसी वाक्य का अर्थ न बदल जाए. नॉइस डेटा के लिए, हमने अलग-अलग ऐसे परिदृश्यों को कवर करने के लिए नॉइस के 150 प्रकार शामिल किए हैं जिनका हमारे उपयोगकर्ताओं को सामना कर पड़ सकता है जिसमें कीबोर्ड की टाइपिंग से लेकर बहते पानी की आवाज़, खर्राटों की आवाज़ वगैरह शामिल है. हमने अपने स्पष्ट वाक् में भावनाओं को भी शामिल किया है जिससे हँसने या रोने जैसे भाव नहीं दबेंगे. जिस परिवेश से हमारे उपयोगकर्ता Skype मीटिंग में शामिल हो रहे हैं, उस परिवेश की विशेषताओं का हमारे वाक् संकेत पर अत्यधिक प्रभाव पड़ता है. उस विभिन्नता को कैप्चर करने के लिए, हमने अपने मॉडल को 3,000 से अधिक वास्तविक कमरे के परिवेश और 115,000 से अधिक कृत्रिम रूप से बनाए गए कमरों के परिवेश के डेटा में प्रशिक्षित किया है.
चूँकि हम डीप लर्निंग का उपयोग करते हैं, इसलिए मॉडल के प्रशिक्षण की शक्तिशाली मूलभूत संरचना होनी ज़रूरी है. अपने ML मॉडल के बेहतर संस्करण डेवलप करने के लिए हम अपनी टीम को Microsoft Azure का उपयोग करने की अनुमति देते हैं. नॉइस में से मूल स्पष्ट वाक् निकालने की एक अन्य चुनौती इसे इस तरह से किया जाना है कि मानव के कान को यह प्राकृतिक और सुखद लगे. चूँकि ऐसी कोई उद्देश्य मैट्रिक्स नहीं है जो मानव अनुभूति से बहुत अधिक सह-संबद्ध हो, इसलिए हमने ऐसा फ़्रेमवर्क डेवलप किया जिससे हम प्रोसेस किए गए ऑडियो के नमूने क्राउडसोर्सिंग विक्रेताओं को भेज सके जहाँ मानव श्रोताओं ने मीन ओपिनियन स्कोर (MOS) के स्केल पर अपने ऑडियो की गुणवत्ता को एक से लेकर पाँच स्टार तक रेट किया. इन मानवीय रेटिंग्स के साथ हम एक नई अवधारणात्मक मैट्रिक डेवलप कर पाए, जिसकी मदद से हम व्यक्तिनिष्ठ मानव रेटिंग्स के साथ, अपने डीप लर्निंग मॉडल्स की गुणवत्ता को बेहतर बनाने पर तेज़ी से काम कर सके.
इस फ़ील्ड में शोध को आगे बढ़ाने के लिए हमने डेटासेट और अवधारणात्मक गुणवत्ता फ़्रेमवर्क को ओपन-सोर्स किया. यह उन तीन प्रतियोगिताओं का आधार रहा है जिन्हें हमने इंटरस्पीच 2020, इंटरस्पीच 2021 और आईसीएएसपीपी 2021 की कॉन्फ़्रेंस के भाग के रूप में होस्ट किया, जिनका यहां उल्लेख किया गया है: डीप नॉइस सप्रेशन चैलेंज – इंटरस्पीच 2021 - Microsoft Research
अंत में, हमने रीयल-टाइम में Skype डेस्कटॉप ऐप में कुशलतापूर्वक चलाने वाला अपना डीप लर्निंग मॉडल बनाया. मानव अनुभूति के लिए अनुकूलित करके, हम गुणवत्ता और जटिलता के बीच एक अच्छा तालमेल पाने में कामयाब हो सके जिसका अर्थ है कि हमारे उपयोगकर्ताओं द्वारा उपयोग किए जा रहे अधिकांश Windows डिवाइस पर हमारी AI-आधारित नॉइस सप्रेशन सुविधा का लाभ मिल सकता है. यह सुविधा Mac पर भी उपलब्ध है और हमारी टीम इस सुविधा को मोबाइल फ्लैटफ़ॉर्म्स पर भी लाने पर काम कर रही है.
*इस समय नॉइस सप्रेशन सुविधा Skype के वेब या मोबाइल संस्करणों में उपलब्ध नहीं है.