Οι θόρυβοι του περιβάλλοντος δεν είναι διασκεδαστικοί όταν είστε σε κλήση βίντεο. Η νέα δυνατότητα καταστολής θορύβου του Skype μπορεί να τους εξουδετερώσει!

22/02/2021 | Ιστολόγια Skype | Ακύρωση θορύβου

Άνθρωποι που μιλάνε, παιδιά που παίζουν, οι εργάτες στη διπλανή οικοδομή ή ο σκύλος σας που διώχνει ένα φανταστικό τέρας από την αυλή: οι θόρυβοι του περιβάλλοντος είναι πραγματικά ενοχλητικοί όταν προσπαθείτε να μιλήσετε στο Skype.

Όχι πια!

Ανακοινώνουμε με χαρά την κυκλοφορία της νέας δυνατότητας καταστολής του θορύβου περιβάλλοντος στην εφαρμογή Skype για υπολογιστή.* Αυτή η νέα δυνατότητα, που αρχικά αναπτύχθηκε για το Microsoft Teams, έχει σχεδιαστεί για να εξουδετερώνει όλους τους ήχους εκτός από τη φωνή σας όταν συσκέπτεστε στο Skype.

Για να τη δείτε στην πράξη, δείτε το παρακάτω βίντεο.

GIF ακύρωσης θορύβου


Για να ενεργοποιήσετε αυτή την πρακτική νέα δυνατότητα στην εφαρμογή Skype για υπολογιστή, δείτε αυτό το άρθρο στην ενότητα υποστήριξης.

Η τεχνολογία πίσω από τη δυνατότητα

Για όσους θέλουν να κατανοήσουν την τεχνολογία πίσω από τη δυνατότητα: λειτουργεί αναλύοντας την τροφοδοσία ήχου και χρησιμοποιώντας στη συνέχεια ειδικά εκπαιδευμένα νευρωνικά δίκτυα σε βάθος για το φιλτράρισμα του θορύβου χωρίς να επηρεάζεται η φωνή του ομιλητή. Ενώ οι παραδοσιακοί αλγόριθμοι καταστολής θορύβου μπορούν να εξουδετερώσουν απλούς, σταθερούς θορύβους, όπως ενός ανεμιστήρα, αυτά τα νευρωνικά δίκτυα μπορούν να μάθουν τη διαφορά μεταξύ της ομιλίας και πιο σύνθετων, μη σταθερών θορύβων, όπως ο ήχος των πλήκτρων, μιας ζελατίνας που ξετυλίγεται ή ενός σκύλου που γαβγίζει.

Η τεχνολογία αυτή βασίζεται στη μηχανική μάθηση (ML) για να μάθει τη διαφορά ανάμεσα στην καθαρή ομιλία και τον θόρυβο και συχνά αναφέρεται ως τεχνητή νοημοσύνη (AI). Ένα αντιπροσωπευτικό σύνολο δεδομένων χρησιμοποιείται για την εκπαίδευση του μοντέλου ML ώστε να λειτουργεί στις περισσότερες καταστάσεις που αντιμετωπίζουν οι χρήστες του Skype. Το σύνολο δεδομένων πρέπει να έχει αρκετή ποικιλομορφία όσον αφορά την καθαρή ομιλία, τους τύπους θορύβου και τα περιβάλλοντα από τα οποία οι χρήστες συμμετέχουν σε online κλήσεις.

Για να επιτευχθεί αυτή η ποικιλομορφία, το σύνολο δεδομένων που χρησιμοποιούμε περιέχει περίπου 760 ώρες δεδομένων καθαρής ομιλίας και 180 ώρες δεδομένων θορύβου. Σε συμμόρφωση με τα αυστηρά πρότυπα προστασίας προσωπικών δεδομένων της Microsoft, δεν συλλέχθηκαν δεδομένα πελατών για αυτό το σύνολο δεδομένων. Χρησιμοποιήσαμε είτε δημόσια δεδομένα είτε crowdsourcing για τη συλλογή συγκεκριμένων σεναρίων. Για την καθαρή ομιλία, χρησιμοποιήσαμε έναν συνδυασμό γυναικείας και αντρικής ομιλίας. Συλλέξαμε επίσης δεδομένα από 10+ γλώσσες, συμπεριλαμβανομένων και τονικών γλωσσών, για να εξασφαλίσουμε ότι το μοντέλο δεν αλλάζει το νόημα μιας πρότασης αλλοιώνοντας τον τόνο των λέξεων. Για τα δεδομένα θορύβου, συμπεριλάβαμε 150 τύπους θορύβου για να καλύψουμε το μεγάλο φάσμα σεναρίων που μπορεί να αντιμετωπίσουν οι χρήστες, από την πληκτρολόγηση και τον ήχο τρεχούμενου νερού μέχρι το ροχαλητό και άλλα. Επίσης, συμπεριλάβαμε συναισθήματα στην καθαρή ομιλία μας, ώστε να μην καταστέλλονται εκφράσεις όπως το γέλιο ή το κλάμα. Ακόμη, τα χαρακτηριστικά του περιβάλλοντος από το οποίο οι χρήστες συμμετέχουν σε μια σύσκεψη Skype έχουν μεγάλο αντίκτυπο στο σήμα της ομιλίας. Για να αποτυπώσουμε αυτή την ποικιλομορφία, εκπαιδεύσαμε το μοντέλο μας με δεδομένα από περισσότερα από 3.000 περιβάλλοντα πραγματικών χώρων και περισσότερα από 115.000 τεχνητά δημιουργημένους χώρους.

Καθώς χρησιμοποιούμε μάθηση σε βάθος, είναι σημαντικό να έχουμε μια ισχυρή υποδομή εκπαίδευσης μοντέλου. Χρησιμοποιούμε το Microsoft Azure για να δώσουμε τη δυνατότητα στην ομάδα μας να αναπτύξει βελτιωμένες εκδόσεις του μοντέλου ML μας. Μια άλλη δυσκολία όσον αφορά την εξαγωγή της αρχικής καθαρής ομιλίας από τον θόρυβο είναι ότι πρέπει να γίνει με τέτοιο τρόπο ώστε το ανθρώπινο αυτί να την αντιλαμβάνεται ως φυσική και ευχάριστη. Καθώς δεν υπάρχουν αντικειμενικοί δείκτες που να έχουν υψηλή συσχέτιση με την ανθρώπινη αντίληψη, αναπτύξαμε ένα πλαίσιο που μας επέτρεψε να στείλουμε επεξεργασμένα ηχητικά δείγματα σε προμηθευτές crowdsourcing, όπου ακροατές αξιολόγησαν την ποιότητα ήχου των δειγμάτων σε μια κλίμακα από το 1 έως το 5 προκειμένου να εξαχθούν μέσες βαθμολογίες γνώμης (MOS). Με αυτές τις ανθρώπινες αξιολογήσεις μπορέσαμε να αναπτύξουμε έναν νέο αντιληπτικό δείκτη ο οποίος, σε συνδυασμό με τις υποκειμενικές ανθρώπινες αξιολογήσεις, μας επέτρεψε να κάνουμε μεγάλη πρόοδο στη βελτίωση της ποιότητας των μοντέλων μάθησης σε βάθος.

Με σκοπό να βοηθήσουμε την έρευνα σε αυτό το πεδίο, δημοσιοποιήσαμε το σύνολο δεδομένων μας και το πλαίσιο crowdsourcing αντιληπτικής ποιότητας. Αυτό ήταν η βάση τριών διαγωνισμών που διοργανώσαμε στο πλαίσιο των συνεδρίων Interspeech 2020, Interspeech 2021 και ICASSP 2021, όπως περιγράφεται εδώ: Δοκιμασία καταστολής θορύβου σε βάθος – INTERSPEECH 2021 – Microsoft Research

Τέλος, δημιουργήσαμε το μοντέλο μάθησης σε βάθος έτσι ώστε να λειτουργεί αποτελεσματικά στην εφαρμογή Skype για υπολογιστή σε πραγματικό χρόνο. Βελτιστοποιώντας το με γνώμονα την ανθρώπινη αντίληψη, μπορέσαμε να επιτύχουμε μια καλή ισορροπία ανάμεσα στην ποιότητα και την πολυπλοκότητα, που σημαίνει ότι οι περισσότερες συσκευές Windows που χρησιμοποιούν οι χρήστες μας μπορούν να επωφεληθούν από τη βασισμένη σε AI δυνατότητα καταστολής θορύβου μας. Αυτή η δυνατότητα είναι επίσης διαθέσιμη σε Mac και η ομάδα μας εργάζεται για να την προσφέρει και σε πλατφόρμες κινητών συσκευών.

*Η δυνατότητα καταστολής θορύβου δεν είναι προς το παρόν διαθέσιμη στις εκδόσεις του Skype για το Web ή για κινητές συσκευές.