רעשי רקע מסיחים במהלך שיחת וידאו עלולים להיות מתסכלים. תכונת דיכוי הרעשים החדשה של סקייפ יכולה למנוע זאת!

22/02/2021 | בלוגים של סקייפ | ביטול רעשים

בין שמדובר באנשים משוחחים, ילדים משחקים, פועלי בניין סמוכים, או בכלב שלך שמרחיק מפלצת דמיונית מהמרפסת הקדמית, רעשי רקע עלולים להסיח את הדעת בצורה משמעותית כשאתה מנסה לשוחח בסקייפ.

ובכן, לא עוד!

אנו שמחים להכריז על הפצתה של תכונת דיכוי רעשי הרקע העדכנית שלנו, באפליקציית סקייפ למחשב שולחני.* תכונה חדשה זו, אשר פותחה במקור עבור Microsoft Teams, נועדה להשתיק כמעט כל רעש, למעט הקול שלך כשאתה מקיים פגישה בסקייפ.

כדי לראות אותה בפעולה, צפה בסרטון הבא.

Noise suppression gif


כדי להפעיל תכונה חדשה שימושית זו באפליקציית סקייפ למחשב שולחני, ראה מאמר זה בסעיף התמיכה שלנו.

הטכנולוגיה העומדת מאחורי תכונה זו

עבור אלה מכם שמעוניינים להבין את הטכנולוגיה שבבסיס התכונה: היא פועלת על-ידי ניתוח הזנת השמע שלך ולאחר מכן שימוש ברשתות עצביות עמוקות, שתורגלו במיוחד לשם כך, כדי לסנן את הרעש מבלי להשפיע על קולו של הדובר. בזמן שאלגוריתמים מסורתיים לדיכוי רעשים יכולים להתמודד עם רעשים פשוטים ועקביים, כגון רעש של מאוורר, הרשתות העצביות הללו יכולות לזהות את ההבדל בין דיבור לבין רעשים מורכבים יותר, לא עקביים, כגון הקלדה במקלדת, רשרוש של עטיפת מזון וכן, אפילו את הכלב הנובח.

טכנולוגיה זו מבוססת על למידת מכונה (ML) כדי לזהות את ההבדל בין דיבור נקי לרעש ולרוב מכנים אותה בינה מלאכותית (AI). ערכת נתונים ייצוגית משמשת לתרגול מודל ה-ML כדי לעבוד עם רוב המצבים שמשתמשי סקייפ שלנו חווים. ערכת הנתונים צריכה לכלול מספיק רבגוניות מבחינת הדיבור הנקי, סוגי הרעש והסביבות שמהן המשתמשים שלנו מצטרפים לשיחות מקוונות.

כדי להשיג רבגוניות זו, ערכת הנתונים שבה אנו משתמשים כוללת כ- 760 שעות של נתוני דיבור נקי ו- 180 שעות של נתוני רעש. כדי לעמוד בתקני הפרטיות הקפדניים של Microsoft, לא נאספו נתוני לקוחות עבור ערכת נתונים זו. במקום זאת, השתמשנו בנתונים זמינים לציבור או במיקור המונים כדי לאסוף תרחישים ספציפיים. לדיבור הנקי השתמשנו בדיבור נקבי ובדיבור זכרי באופן מאוזן. כמו כן, אספנו נתונים מיותר מ- 10 שפות, כולל שפות טונאליות, כדי להבטיח שהמודל אינו משנה את משמעות המשפט על-ידי עיוות הטון של המילים. לנתוני הרעש, כללנו 150 סוגי רעש אשר יכסו את התרחישים המגוונים שהמשתמשים שלנו עשויים להיתקל בהם, החל בהקלדה במקלדת, דרך מים זורמים, וכלה בנחירות ועוד. כמו כן, כללנו רגשות בדיבור הנקי כדי שצלילים כמו צחוק או בכי לא יבוטלו. מאפייני הסביבה שממנה המשתמשים שלנו מצטרפים לפגישת סקייפ משפיעים באופן ניכר גם על אותות הדיבור. כדי לכסות את הרבגוניות הרבה, תרגלנו במודל שלנו נתונים שנלקחו מיותר מ- 3,000 סביבות אמיתיות של חדרים ומעל ל- 115,000 חדרים שנוצרו באופן סינתטי.

מכיוון שאנו משתמשים בלמידה עמוקה, חשוב להחזיק בתשתית רבת-עוצמה לתרגול של המודל. אנו משתמשים ב- Microsoft Azure כדי לאפשר לצוות שלנו לפתח גירסאות משופרות של מודל ה- ML שלנו. בנוסף, יש להתמודד עם אתגר נוסף - חילוץ הדיבור הנקי המקורי מהרעש, באופן שהאוזן האנושית קולטת אותו כטבעי ונעים. מכיוון שאין מדדים אובייקטיביים בעלי מתאם גבוה לתפיסה האנושית, פיתחנו מסגרת שאפשרה לנו לשלוח דגימות שמע מעובדות לספקים של מיקור המונים, שם הקשיבו להן האנשים ודירגו את איכות השמע בסולם של אחד עד חמישה כוכבים כדי להפיק את הסולם המשוקלל Mean Opinion Scores ‏(MOS). בעזרת הדירוגים האנושיים הללו הצלחנו לפתח מדד תפיסתי חדש אשר, יחד עם הדירוגים האנושיים הסובייקטיביים, אפשר לנו להתקדם במהירות ולשפר את איכות המודלים של הלמידה העמוקה.

כדי לקדם את המחקר בתחום זה, נעזרנו בשיטת הקוד הפתוח עבור ערכת הנתונים שלנו ועבור מסגרת מיקור ההמונים של האיכות התפיסתית. זה היה הבסיס לשלוש תחרויות שאירחנו כחלק מהכנסים Interspeech 2020‏, Interspeech 2021 ו- ICASSP 2021 כמפורט להלן: אתגר דיכוי הרעשים המעמיק - INTERSPEECH 2021‏ - Microsoft Research

לבסוף, יצרנו את מודל הלמידה העמיקה כך שיפעל בצורה יעילה באפליקציית סקייפ למחשב שולחני בזמן אמת. על-ידי מיטוב התפיסה האנושית, הצלחנו להשיג איזון טוב בין איכות ומורכבות, כלומר שרוב המכשירים של Windows שהמשתמשים שלנו משתמשים הם יכולים ליהנות מדיכוי הרעשים מבוסס ה- AI שלנו. תכונה זו זמינה גם ב- Mac והצוות שלנו פועל להצגת התכונה הזו גם בפלטפורמות ניידות.

*בשלב זה, תכונת דיכוי הרעשים אינה זמינה בגירסאות האינטרנט או המכשירים הניידים של סקייפ.