2달 전

개인 발화 스타일 학습을 통한 정확한 입술에서 음성 합성

Prajwal, K R ; Mukhopadhyay, Rudrabha ; Namboodiri, Vinay ; Jawahar, C V

초록

인간은 대화 중에 음성이 부재하거나 외부 소음으로 인해 왜곡되었을 때, 자발적으로 입의 움직임에서 일부 내용을 추론하는 경향이 있습니다. 본 연구에서는 입의 움직임만 주어졌을 때 자연스러운 음성을 생성하는 립 투 스피치 합성(lip to speech synthesis) 작업을 탐구합니다. 정확한 립 리딩(lip-reading)을 위해 문맥적 및 화자 특유의 신호가 중요하다는 점을 인정하면서, 우리는 기존 연구들과 다른 접근 방식을 취하였습니다. 우리는 제약 없고 큰 어휘 범위를 가진 환경에서 개별 화자의 정확한 입 움직임 시퀀스와 음성 간의 매핑(mapping)을 학습하는 데 초점을 맞추었습니다. 이를 위해 우리는 자연적인 환경에서 단일 화자 립 투 스피치 작업을 훈련하고 평가하기 위한 첫 번째 대규모 벤치마크 데이터셋을 수집하여 공개하였습니다. 우리는 이러한 제약 없는 상황에서 처음으로 정확하고 자연스러운 립 투 스피치 합성을 달성하기 위한 주요 설계 선택 사항들을 포함한 새로운 접근 방식을 제안합니다. 정량적, 정성적 지표와 인간 평가를 통한 광범위한 평가는 우리의 방법이 이 분야에서 이전 연구들보다 4배 더 이해하기 쉽다는 것을 보여줍니다. 논문, 방법론 및 정성적 결과에 대한 간략한 개요를 확인하시려면 아래의 데모 동영상을 참조하십시오.https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be