2달 전
프롬프트 기반 공동 발화 운동 생성에서 시너지 효과를 활용한 전신 제어 실현
Bohong Chen; Yumeng Li; Yao-Xiang Ding; Tianjia Shao; Kun Zhou

초록
현재의 동시 발화 동작 생성 접근 방식은 주로 상체 제스처에만 초점을 맞추고 있으며, 텍스트 프롬프트를 기반으로 하는 복합적인 전체 몸 동작의 세밀한 제어, 예를 들어 걸으면서 말하는 등의 동작을 지원하지 못하고 있습니다. 주요 과제는 다음과 같습니다: 1) 기존의 음성-동작 데이터셋은 매우 제한된 전체 몸 동작만 포함하고 있어, 일반적인 인간 활동의 넓은 범위가 학습 분포에서 배제되어 있습니다; 2) 이러한 데이터셋들은 또한 사용자 프롬프트가 부족합니다. 이러한 과제들을 해결하기 위해, 우리는 SynTalker를 제안합니다. SynTalker는 오프더셀프 텍스트-동작 데이터셋을 활용하여 누락된 전체 몸 동작과 프롬프트를 보완하는 보조 자료로 사용합니다. 핵심 기술적 공헌은 두 가지입니다. 하나는 음성-동작 및 텍스트-동작 데이터셋 간의 동작 분포 차이가 크더라도, 동작, 음성, 그리고 프롬프트의 정렬된 임베딩 공간을 얻기 위한 다단계 학습 과정입니다. 다른 하나는 분리-결합 전략을 이용하여 지역적 신체 부분에 대한 미세 조정을 실현하는 확산 기반 조건부 추론 과정입니다. 광범위한 실험을 통해 우리의 접근 방식이 기존 방법론보다 우수하며, 음성과 사용자 프롬프트를 바탕으로 한 정확하고 유연한 복합적 전체 몸 동작 생성을 지원함을 검증하였습니다.