2달 전

TM2T: 확률적 및 토큰화 모델링을 이용한 3D 인간 운동과 텍스트의 상호 생성

Guo, Chuan ; Zuo, Xinxin ; Wang, Sen ; Cheng, Li
TM2T: 확률적 및 토큰화 모델링을 이용한 3D 인간 운동과 텍스트의 상호 생성
초록

시각과 언어 사이의 강한 연관성을 바탕으로, 이 두 가지 인간의 감지와 의사소통 수단이 밀접하게 연결되어 있다는 점에 영감을 받아, 본 논문은 텍스트에서 3차원 인간 전체 동작을 생성하는 문제와 그 역방향 문제인 텍스트-동작 변환(text2motion) 및 동작-텍스트 변환(motion2text)을 탐구하고자 합니다. 기존의 난제를 해결하기 위해, 특히 동일한 텍스트로부터 여러 개의 고유한 동작을 생성할 수 있도록 하며, 의미 없는 움직임이 없는 자세 시퀀스를 생성하는 것을 피하기 위해, 우리는 이산적이고 압축된 동작 표현인 모션 토큰(motion token)의 사용을 제안합니다. 이는 동작과 텍스트 신호 모두를 고려할 때, 각각 모션 토큰과 텍스트 토큰으로 표현되는 하나의 공평한 경쟁 환경을 제공합니다. 또한, 우리의 동작-텍스트 변환 모듈은 합성된 텍스트가 입력된 텍스트와 크게 벗어날 경우 큰 학습 손실로 처벌되는 본 논문의 텍스트-동작 변환 학습 파이프라인의 역정렬 과정에 통합됩니다. 경험적으로 이 방법이 성능 개선에 효과적임이 입증되었습니다. 마지막으로, 두 가지 모달리티(동작과 텍스트) 간의 매핑은 기계 번역(NMT)을 위한 신경망 모델을 우리의 맥락에 맞게 적응시키는 것으로 촉진됩니다. 이러한 이산적인 모션 토큰 분포에 대한 자기 회귀 모델링은 입력된 텍스트로부터 길이가 다양한 비결정적인 자세 시퀀스를 생성할 수 있게 합니다. 우리의 접근 방식은 유연하며, 텍스트-동작 변환과 동작-텍스트 변환 작업 모두에 적용될 수 있습니다. 두 개의 벤치마크 데이터셋에서 수행된 경험적 평가는 다양한 최신 방법들과 비교하여 우리 접근 방식이 두 작업 모두에서 우수한 성능을 보이는 것을 입증하였습니다.프로젝트 페이지: https://ericguo5513.github.io/TM2T/

TM2T: 확률적 및 토큰화 모델링을 이용한 3D 인간 운동과 텍스트의 상호 생성 | 최신 연구 논문 | HyperAI초신경