11일 전
정서 강화된 대화형 얼굴 생성
Sahil Goyal, Shagun Uppal, Sarthak Bhagat, Yi Yu, Yifang Yin, Rajiv Ratn Shah

초록
다수의 연구에서 교육 및 비디오 번역과 같은 다양한 실용적 응용 분야를 위해 입술 동기화가 가능한 대화하는 얼굴을 생성하는 엔드투엔드 파이프라인을 개발해왔다. 그러나 이러한 기존 연구들은 사람의 표정과 감정에 대한 고려가 부족하여 현실감 있는 영상을 생성하지 못한다는 한계를 지닌다. 게다가 이러한 방법들의 성능은 훈련 데이터셋에 포함된 얼굴에 크게 의존하므로, 새로운 얼굴에 대해서는 성능이 떨어질 수 있다. 이를 해결하기 위해, 우리는 범주형 감정을 조건으로 하여 적절한 표정을 갖춘 영상을 생성할 수 있는 대화하는 얼굴 생성 프레임워크를 구축하였다. 이로 인해 영상의 현실성과 설득력이 향상된다. 우리는 행복, 슬픔, 두려움, 분노, 혐오, 중립의 총 여섯 가지 감정 범주를 포함한 광범위한 감정 표현을 지원하며, 제안하는 모델이 임의의 정체성, 감정, 언어에 적응할 수 있음을 보여준다. 본 연구에서 제안하는 프레임워크는 감정을 반영한 대화하는 얼굴 생성을 실시간으로 지원하는 사용자 친화적인 웹 인터페이스를 갖추고 있다. 또한 사용자 인터페이스의 사용성, 디자인 및 기능성에 대한 주관적 평가를 위한 사용자 연구를 수행하였다. 프로젝트 페이지: https://midas.iiitd.edu.in/emo/