2달 전
SelfTalk: 3D 대화 얼굴을 이해하기 위한 자기 지도적 교환 훈련 다이어그램
Peng, Ziqiao ; Luo, Yihao ; Shi, Yue ; Xu, Hao ; Zhu, Xiangyu ; He, Jun ; Liu, Hongyan ; Fan, Zhaoxin

초록
음성 기반 3D 얼굴 애니메이션 기술의 다양한 멀티미디어 분야로의 확장. 이전 연구에서는 오디오 신호에서 실감 나는 입 움직임과 얼굴 표정을 생성하는 데 있어 유망한 결과를 보여주었습니다. 그러나 데이터에만 의존하는 전통적인 회귀 모델은 정확한 라벨에 접근하기 어려운 문제와 서로 다른 모달 간의 도메인 차이 등 몇 가지 핵심적인 문제가 있어, 정밀성과 일관성이 부족한 결과를 초래하였습니다.생성된 입 움직임의 시각적 정확성을 향상시키면서 라벨화된 데이터에 대한 의존성을 줄이기 위해, 우리는 자기 감독을 크로스-모달 네트워크 시스템에 포함시켜 3D 대화 얼굴을 학습하는 새로운 프레임워크 SelfTalk(셀프토크)를 제안합니다. 이 프레임워크는 세 개의 모듈로 구성된 네트워크 시스템을 구축하며, 이 모듈들은 얼굴 애니메이터, 음성 인식기, 그리고 입술 읽기 해석기입니다. SelfTalk의 핵심은 오디오, 텍스트, 그리고 입술 형태 간의 호환 가능한 특징 교환을 촉진하는 교환 훈련 다이어그램으로, 이를 통해 우리의 모델들이 이러한 요소들 사이의 복잡한 연결 관계를 학습할 수 있습니다.제안된 프레임워크는 입술 읽기 해석기를 통해 얻은 지식을 활용하여 더 현실적인 입술 형태를 생성합니다. 광범위한 실험과 사용자 연구를 통해 우리의 제안 방식이 질적 및 양적으로 최고 수준의 성능을 달성함을 확인하였습니다. 부록 동영상을 시청하시길 권장드립니다.