실제 시각 스트림 없이 시각적 음성 강화

이 연구에서는 제약 없는 실제 환경에서 음성 증강(task)을 다시 고민한다. 현재 최첨단 기법들은 오직 오디오 스트림만을 사용하고 있으며, 다양한 실제 환경의 잡음 상황에서 성능이 제한적이다. 최근에는 입모양 움직임을 추가적인 정보로 활용함으로써 '오디오 전용' 방법보다 더 높은 품질의 음성을 생성하는 연구들이 등장하고 있다. 그러나 이러한 방법은 시각 스트림이 신뢰할 수 없거나 완전히 존재하지 않는 응용 분야에서는 사용이 불가능하다. 본 연구에서는 음성 기반 입모양 합성(Speech-driven lip synthesis)의 최신 기술 발전을 활용하여 음성 증강의 새로운 패러다임을 제안한다. 이러한 기술 중 하나를 교사 네트워크(teacher network)로 삼아, 노이즈를 가리기 위한 정확한 입모양 움직임을 생성할 수 있는 강건한 학생 네트워크(student network)를 훈련시킨다. 이 과정에서 학생 네트워크는 마치 '시각적 노이즈 필터'처럼 작용하게 된다. 제안한 의사 입모양(pseudo-lip) 접근법을 통해 증강된 음성의 이해도는 실제 입모양을 사용한 경우와 비교해 3% 미만의 차이로 거의 동등하다. 이는 실제 영상 스트림이 없더라도 입모양 움직임의 장점을 활용할 수 있음을 시사한다. 본 모델은 정량적 지표와 함께 인간 평가를 통해 철저히 평가되었으며, 추가적인 아블레이션 연구(ablation studies) 및 웹사이트에 게시된 질적 비교와 결과를 포함한 데모 영상이 제안된 방법의 효과성을 명확히 보여준다. 본 연구의 효과를 직접 확인할 수 있는 데모 영상은 다음과 같은 웹사이트에서 제공된다: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}. 또한 향후 연구를 위해 코드와 모델도 공개한다: \url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.