17일 전

BEAT: 대규모 의미적 및 정서적 다중 모달 데이터셋을 통한 대화형 제스처 합성

Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng
BEAT: 대규모 의미적 및 정서적 다중 모달 데이터셋을 통한 대화형 제스처 합성
초록

다양한 모달 데이터를 기반으로 현실적이고 생생하며 인간과 같은 대화용 제스처를 합성하는 것은 여전히 해결되지 않은 문제이며, 이는 가용한 데이터셋, 모델, 그리고 표준 평가 지표의 부족으로 인한 것이다. 이를 해결하기 위해, 우리는 30명의 화자들이 8가지 다양한 감정과 4개의 언어로 대화하는 과정에서 촬영한 76시간 분량의 고해상도 다중 모달 데이터와 3,200만 개의 프레임 단위 감정 및 의미 관련성 레이블을 포함한 Body-Expression-Audio-Text 데이터셋(BEAT)을 구축하였다. BEAT에 대한 통계 분석을 통해, 기존의 음성, 텍스트, 화자 정체성과의 관련성 외에도, 대화 제스처가 얼굴 표정, 감정, 의미와도 밀접한 상관관계를 가짐을 확인하였다. 이러한 관찰을 바탕으로, 위의 여섯 가지 모달을 계단식(카스케이드) 아키텍처로 모델링한 제스처 합성 기반 모델인 Cascaded Motion Network(CaMN)을 제안한다. 의미 관련성 평가를 위해, Semantic Relevance Gesture Recall(SRGR)라는 새로운 평가 지표를 도입하였다. 정성적 및 정량적 실험을 통해, 이 지표의 타당성, 참값 데이터의 품질, 그리고 기준 모델의 최신 기술 수준의 성능을 입증하였다. 우리 지식에 따르면, BEAT는 인간의 제스처를 연구하기 위해 가장 큰 모션 캡처 데이터셋이며, 제어 가능한 제스처 합성, 다중 모달 분석, 감정 기반 제스처 인식 등 다양한 연구 분야에 기여할 수 있을 것으로 기대된다. 데이터, 코드, 모델은 https://pantomatrix.github.io/BEAT/ 에서 공개되어 있다.

BEAT: 대규모 의미적 및 정서적 다중 모달 데이터셋을 통한 대화형 제스처 합성 | 최신 연구 논문 | HyperAI초신경