
3D 얼굴 아바타가 커뮤니케이션에 점점 더 널리 사용되면서, 감정을 정확히 전달하는 것이 매우 중요해지고 있다. 그러나 최근의 최고 성능을 자랑하는 단일 영상(monocular image)에서 파라메트릭 3D 얼굴 모델을 추정하는 방법들은 미묘하거나 극단적인 감정을 포함한 얼굴 표정의 전체 스펙트럼을 포착하지 못하는 한계를 가지고 있다. 우리는 학습 과정에서 사용하는 전통적인 재구성 평가 지표(점선 재투영 오차, 광학적 오차, 얼굴 인식 손실)가 고해상도의 표정을 충분히 포착하지 못한다는 것을 발견했다. 그 결과, 입력 이미지의 감정 내용과 일치하지 않는 얼굴 기하학적 구조가 생성된다. 이를 해결하기 위해 우리는 EMOCA(EMOtion Capture and Animation)를 제안하며, 학습 과정 중에 새로운 딥 퍼셉추얼 감정 일관성 손실(Deep Perceptual Emotion Consistency Loss)을 도입함으로써 재구성된 3D 표정이 입력 이미지에 나타난 표정과 일치하도록 보장한다. EMOCA는 현재 최고 수준의 방법들과 동등한 3D 재구성 오차를 달성하지만, 재구성된 표정의 품질과 인식된 감정의 정확성 측면에서 크게 우수한 성능을 보여준다. 또한 추정된 3D 얼굴 파라미터로부터 정서의 밸런스(Valence)와 각성도(Arousal) 수준을 직접 추정하고 기본 감정을 분류하는 기능도 제공한다. 자연 상태의 감정 인식(task of in-the-wild emotion recognition)에서, 우리의 순수 기하학적 접근법은 최고의 이미지 기반 방법들과 경쟁할 수 있는 성능을 보이며, 인간 행동 분석에서 3D 기하학의 가치를 입증한다. 모델과 코드는 공개적으로 https://emoca.is.tue.mpg.de 에서 제공된다.