2달 전

프롬프트 기반 공동 발화 운동 생성에서 시너지 효과를 활용한 전신 제어 실현

Bohong Chen; Yumeng Li; Yao-Xiang Ding; Tianjia Shao; Kun Zhou
프롬프트 기반 공동 발화 운동 생성에서 시너지 효과를 활용한 전신 제어 실현
초록

현재의 동시 발화 동작 생성 접근 방식은 주로 상체 제스처에만 초점을 맞추고 있으며, 텍스트 프롬프트를 기반으로 하는 복합적인 전체 몸 동작의 세밀한 제어, 예를 들어 걸으면서 말하는 등의 동작을 지원하지 못하고 있습니다. 주요 과제는 다음과 같습니다: 1) 기존의 음성-동작 데이터셋은 매우 제한된 전체 몸 동작만 포함하고 있어, 일반적인 인간 활동의 넓은 범위가 학습 분포에서 배제되어 있습니다; 2) 이러한 데이터셋들은 또한 사용자 프롬프트가 부족합니다. 이러한 과제들을 해결하기 위해, 우리는 SynTalker를 제안합니다. SynTalker는 오프더셀프 텍스트-동작 데이터셋을 활용하여 누락된 전체 몸 동작과 프롬프트를 보완하는 보조 자료로 사용합니다. 핵심 기술적 공헌은 두 가지입니다. 하나는 음성-동작 및 텍스트-동작 데이터셋 간의 동작 분포 차이가 크더라도, 동작, 음성, 그리고 프롬프트의 정렬된 임베딩 공간을 얻기 위한 다단계 학습 과정입니다. 다른 하나는 분리-결합 전략을 이용하여 지역적 신체 부분에 대한 미세 조정을 실현하는 확산 기반 조건부 추론 과정입니다. 광범위한 실험을 통해 우리의 접근 방식이 기존 방법론보다 우수하며, 음성과 사용자 프롬프트를 바탕으로 한 정확하고 유연한 복합적 전체 몸 동작 생성을 지원함을 검증하였습니다.