텍스트, 오디오, 화자 정체성의 트리모달 컨텍스트로부터의 음성 및 제스처 생성

가상 아바타 및 사회적 로봇과 같은 인간 유사 에이전트의 경우, 말을 할 때 적절한 제스처를 취하는 것은 인간과의 상호작용에서 매우 중요하다. 말과 함께하는 제스처는 상호작용 경험을 풍부하게 하고 에이전트가 생동감 있게 느껴지게 한다. 그러나 사람들의 제스처에 대한 이해 부족으로 인해 인간과 유사한 제스처를 생성하는 것은 여전히 어려운 과제이다. 데이터 기반 접근법은 인간의 제스처 시연 데이터로부터 제스처 수행 능력을 학습하려는 시도를 하고 있으나, 제스처의 모호성과 개인 차이로 인해 학습이 제한된다. 본 논문에서는 말 텍스트, 오디오, 화자 정체성의 다모달적 맥락을 활용하여 신뢰성 있게 제스처를 자동 생성하는 모델을 제안한다. 제안한 모델은 다모달적 맥락과 적대적 학습 기법을 통합함으로써, 말의 내용과 리듬에 부합하며 인간과 유사한 제스처를 생성한다. 또한 제스처 생성 모델에 대한 새로운 정량적 평가 지표를 도입하였다. 제안된 지표를 활용한 실험과 주관적 인간 평가 결과, 기존의 엔드투엔드 제스처 생성 모델보다 본 모델이 우수함을 확인하였다. 또한, 제한된 맥락 상황에서 합성 오디오를 사용할 수 있음을 확인하였으며, 다양한 화자 영상 데이터로부터 학습한 스타일 임베딩 공간에서 서로 다른 화자 정체성을 지정함으로써 동일한 말에 대해 다양한 제스처 스타일을 생성할 수 있음을 보여주었다. 모든 코드와 데이터는 https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context 에 공개되어 있다.