2달 전
WHAM!: 시끄러운 환경에서의 음성 분리 확장
Gordon Wichern; Joe Antognini; Michael Flynn; Licheng Richard Zhu; Emmett McQuinn; Dwight Crow; Ethan Manilow; Jonathan Le Roux

초록
최근 단일 오디오 채널을 사용하여 여러 명의 겹치는 화자들의 음성 신호를 분리하는 데 있어 진전이 이루어져 칵테일 파티 문제(Cocktail Party Problem) 해결에 한 발짝 더 다가섰습니다. 그러나 이 분야의 대부분 연구는 화자들이 거의 완전히 겹치는 상황, 인위적으로 낮은 샘플링 속도, 그리고 외부 배경 소음이 없는 조건에서 성능을 비교하는 제약된 문제 설정을 사용하고 있습니다. 본 논문에서는 이러한 연구를 보다 실제적이고 도전적인 시나리오로 발전시키기 위해 노력하였습니다. 이를 위해 wsj0-2mix 데이터셋에서 추출한 두 화자의 혼합 음성에 실제 주변 소음을 결합한 WSJ0 Hipster Ambient Mixtures (WHAM!) 데이터셋을 생성하였습니다. 샘플들은 샌프란시스코 베이 지역의 커피숍, 레스토랑, 바에서 수집되었으며, 공개적으로 제공되고 있습니다. 우리는 다양한 음성 분리 아키텍처와 목적 함수를 벤치마킹하여 노이즈에 대한 강건성을 평가하였습니다. 노이즈로 인해 분리 성능이 감소하였지만, 대부분의 접근 방식에서 노이즈가 포함된 신호들에 비해 여전히 상당한 개선 효과를 관찰할 수 있었습니다.