영상 통화 중 잡음으로 인한 방해는 유쾌하지 않습니다. Skype의 새로운 노이즈 억제 기능이 잡음을 없앨 수 있습니다!

2021년 2월 22일 | Skype 블로그 | 노이즈 캔슬링

사람들 말소리든, 아이들이 노는 소리, 옆집 공사 소리, 현관에서 상상의 괴물을 쫒아내기 위해 위협하는 강아지 소리든, Skype로 이야기하는 중 백그라운드 노이즈는 정말 방해가 될 수 있습니다.

이제 더 이상은 방해가 되지 않습니다!

Microsoft는 Skype 데스크톱 앱의 최신 백그라운드 노이즈 억제 기능 출시를 알려드리게 되어 기쁩니다.* 원래 Microsoft Teams용으로 개발된 이 기능은 Skype에서 모임 중일 때 사용자의 목소리를 제외한 모든 소리를 조용히 하게 만들도록 설계되었습니다.

실제 작동을 확인하려면 아래 비디오를 확인하세요.

노이즈 억제 gif


Skype 데스크톱 앱에서 이 편리한 새 기능을 활성화하려면 지원 섹션의 이 문서를 참조하세요.

기능에 숨겨진 기술

기능에 숨겨진 기술을 이해하려는 사람들을 위해: 이 기능은 오디오 피드를 분석하고 특별히 학습된 심층 신경망을 사용하여 화자의 목소리에 영향을 주지 않고 노이즈만 걸러낼 수 있습니다. 이전의 노이즈 억제 알고리즘은 선풍기 소리 같은 단순하고 일관된 노이즈를 다루는 반면, 이 신경망은 음성과 키보드 입력 소리, 음식 포장지의 부스럭거리는 소리, 울부짖는 강아지 소리처럼 더 복잡하고 일관되지 않은 노이즈의 차이를 학습할 수 있습니다.

이 기술은 ML(기계 학습)을 활용하여 맑은 음성과 노이즈 간의 차이를 학습하며 흔히 AI(인공 지능)라고 언급됩니다. Skype 사용자가 경험하는 대부분의 상황에서 작동하도록 ML 모델을 학습하는 데에는 대표 데이터 세트가 사용됩니다. 맑은 음성, 노이즈 유형 및 사용자가 온라인 통화에 참가하는 환경과 관련해서 데이터 세트가 충분히 다양해야 합니다.

이러한 다양성을 얻기 위해 Microsoft에서 사용하는 데이터 세트에는 약 760시간의 맑은 음성 데이터와 180시간의 노이즈 데이터가 포함되어 있습니다. Microsoft의 엄격한 개인 정보 보호 표준을 준수하기 위해 이 데이터 세트에 대해서는 고객 데이터가 수집되지 않았습니다. 대신 공개적으로 사용할 수 있는 데이터나 크라우드소싱을 사용하여 구체적인 시나리오를 수집했습니다. 맑은 음성의 경우 남성과 여성의 음성을 균형 있게 사용했습니다. 모델이 말의 어조를 왜곡하여 문장의 의미가 변경되지 않도록 하기 위해 성조 언어를 비롯하여 10개 이상의 언어에서 데이터를 수집했습니다. 노이즈 데이터의 경우 키보드 입력 소리부터 흐르는 물 소리, 코 고는 소리 등까지 사용자가 경험할 수 있는 다양한 시나리오를 포괄하기 위해 150개의 노이즈 유형을 포함했습니다. 또한 웃음이나 울음 같은 표정이 억제되지 않도록 맑은 음성에 감정을 포함했습니다. Skype 모임에 참가하는 사용자의 환경 특성도 음성 신호에 강력한 영향을 미칩니다. 그러한 다양성을 확보하기 위해 3,000개 이상의 실제 회의실 환경과 115,000개 이상의 인위적으로 만든 회의실의 데이터를 사용하여 모델을 학습시켰습니다.

딥 러닝을 사용하므로 강력한 모델 학습 인프라를 보유하는 것이 중요합니다. Microsoft는 Microsoft Azure를 사용하여 팀이 ML 모델의 향상된 버전을 개발할 수 있도록 합니다. 또한 노이즈에서 원래의 맑은 음성을 추출하는 작업은 인간의 귀가 해당 음성을 자연스럽고 상냥한 음성으로 인지하는 방식으로 수행되어야 합니다. 인간의 인지와 연관성이 높은 객관적인 메트릭이 없기 때문에 Microsoft는 처리된 오디오 샘플을 크라우드소싱 공급업체에 보낼 수 있는 프레임워크를 개발했습니다. 이 프레임워크는 듣는 사람이 오디오 품질을 1~5점의 별 등급으로 평가하여 MOS(평균 평가점)를 산출합니다. 이러한 평가를 통해 Microsoft는 주관적인 평가와 함께 딥 러닝 모델의 품질을 빠르게 향상할 수 있도록 하는새 인지 메트릭을 개발할 수 있었습니다.

이 분야의 연구를 발전시키기 위해 Microsoft는 데이터 세트와 인지 품질 크라우드소싱 프레임워크를 오픈 소스로 공개했습니다. 이 오픈 소스는 Deep Noise Suppression Challenge – INTERSPEECH 2021 - Microsoft Research에 설명된 것처럼 Interspeech 2020, Interspeech 2021, ICASSP 2021 컨퍼런스의 일환으로 주체한 세 대회의 기본이 되었습니다.

마지막으로 Microsoft는 Skype 데스크톱 앱에서 실시간으로 효율적으로 작동하는 딥 러닝 모델을 만들었습니다.. 인간의 인지를 최적화함으로써 품질과 복잡성 간의 균형을 얻을 수 있었습니다. 즉 사용자가 사용하는 대부분의 Windows 디바이스에서 AI 기반 노이즈 억제를 활용할 수 있습니다. 이 기능은 Mac에서도 사용할 수 있으며 Microsoft 팀은 모바일 플랫폼에도 이 기능을 제공하기 위해 작업하고 있습니다.

*노이즈 억제 기능은 현재 Skype의 웹 또는 모바일 버전에서는 사용할 수 없습니다.