2달 전

ReVISE: 시각적 입력을 활용한 자기 감독식 음성 재합성 기법으로 보편적이고 일반화된 음성 향상 실현

Wei-Ning Hsu; Tal Remez; Bowen Shi; Jacob Donley; Yossi Adi
ReVISE: 시각적 입력을 활용한 자기 감독식 음성 재합성 기법으로 보편적이고 일반화된 음성 향상 실현
초록

이전에 시각적 입력을 활용하여 음성 품질을 개선하는 연구들은 일반적으로 각각의 청각 왜곡 유형(예: 분리, 복원, 비디오-음성 변환)을 따로따로 연구하고 맞춤 알고리즘을 제시하였습니다. 본 논문에서는 이러한 주제들을 통합하여 일반화된 음성 향상(Generalized Speech Enhancement)을 연구하려고 합니다. 여기서 목표는 정확한 참조 청정 신호를 재구성하는 것이 아니라, 특정 측면의 음성을 개선하는 데 초점을 맞추는 것입니다. 특히, 이 논문은 이해도(intelligibility), 품질(quality), 그리고 비디오 동기화(video synchronization)에 중점을 두고 있습니다. 우리는 이 문제를 오디오-비주얼 음성 재합성(audio-visual speech resynthesis)으로 설정하며, 이를 두 단계로 구성합니다: 의사 오디오-비주얼 음성 인식(Pseudo Audio-Visual Speech Recognition, P-AVSR)과 의사 텍스트-음성 합성(Pseudo Text-to-Speech Synthesis, P-TTS). P-AVSR과 P-TTS는 자기 감독 학습(self-supervised) 음성 모델에서 파생된 이산 단위(discrete units)를 통해 연결됩니다. 또한, 우리는 자기 감독 학습 오디오-비주얼 음성 모델을 사용하여 P-AVSR를 초기화합니다. 제안된 모델은 ReVISE라고 명명되었습니다. ReVISE는 야외 환경에서 비디오-음성 합성을 위한 최초의 고품질 모델이며, 단일 모델로 LRS3 오디오-비주얼 향상 작업에서 우수한 성능을 보입니다. 실제 세계에서의 적용 가능성을 입증하기 위해 ReVISE는 도전적인 청각 조건 하에서 수집된 1.6시간의 학습 데이터만으로 구성된 EasyCom이라는 오디오-비주얼 벤치마크에서도 평가되었습니다. 마찬가지로, ReVISE는 노이즈를 크게 억제하고 품질을 개선하였습니다. 프로젝트 페이지: https://wnhsu.github.io/ReVISE.

ReVISE: 시각적 입력을 활용한 자기 감독식 음성 재합성 기법으로 보편적이고 일반화된 음성 향상 실현 | 최신 연구 논문 | HyperAI초신경