야생 환경에서 음성-입술 동기화를 위한 Lip Sync 전문가가 필요할 뿐입니다.

이 연구에서는 임의의 신원을 가진 말하는 얼굴 비디오를 목표 음성 구간에 맞춰 입술 동기화(lip-sync)하는 문제를 조사합니다. 현재의 연구들은 훈련 단계에서 보았던 정적 이미지나 특정 사람들의 비디오에서 정확한 입술 움직임을 생성하는 데 우수하지만, 동적이고 제약이 없는 말하는 얼굴 비디오에서 임의의 신원의 입술 움직임을 정확히 변형시키는 데 실패하여, 결과적으로 비디오의 상당 부분이 새로운 오디오와 동기화되지 않는 문제가 발생합니다. 우리는 이 문제와 관련된 주요 원인들을 파악하고, 강력한 입술 동기화 판별자(discriminator)로부터 학습하여 이를 해결하였습니다. 다음으로, 제약이 없는 비디오에서 입술 동기화를 정확히 측정할 수 있는 새로운 엄격한 평가 벤치마크와 지표를 제안합니다. 우리의 도전적인 벤치마크에 대한 광범위한 양적 평가 결과는, Wav2Lip 모델로 생성된 비디오의 입술 동기화 정확도가 실제 동기화된 비디오에 거의匹敌的事实을 보여줍니다. (注: "匹敌"在韩语中没有直接对应的词汇,建议使用"비해 almost as good as"来表达)우리는 우리 웹사이트 (\url{cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip-generation-in-the-wild})에서 Wav2Lip 모델과 평가 벤치마크의 실질적인 영향을 명확하게 보여주는 시연 비디오를 제공합니다. 코드와 모델은 이 GitHub 저장소 (\url{github.com/Rudrabha/Wav2Lip})에서 공개되며, 또한 이 링크 (\url{bhaasha.iiit.ac.in/lipsync})에서 대화형 시연을 체험할 수 있습니다.(修正后的版本如下:)우리는 우리 웹사이트 (\url{cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip-generation-in-the-wild})에서 Wav2Lip 모델과 평가 벤치마크의 실질적인 영향을 명확하게 보여주는 시연 비디오를 제공합니다. 생성된 비디오의 입술 동기화 정확도가 실제 동기화된 비디오에 거의 필적함을 확인할 수 있습니다. 코드와 모델은 이 GitHub 저장소 (\url{github.com/Rudrabha/Wav2Lip})에서 공개되며, 또한 이 링크 (\url{bhaasha.iiit.ac.in/lipsync})에서 대화형 시연을 체험할 수 있습니다.