2달 전
MotionBERT: 인간 운동 표현 학습의 통합적 관점
Zhu, Wentao ; Ma, Xiaoxuan ; Liu, Zhaoyang ; Liu, Libin ; Wu, Wayne ; Wang, Yizhou

초록
대규모 및 이질적인 데이터 리소스에서 인간의 움직임 표현을 학습하여 다양한 인간 중심 비디오 작업을 해결하는 통합된 관점을 제시합니다. 구체적으로, 노이즈가 포함된 부분적인 2D 관측치로부터 기본 3D 움직임을 복원하기 위해 모션 인코더를 훈련시키는 사전 훈련 단계를 제안합니다. 이러한 방식으로 획득한 모션 표현은 기하학적, 운동학적, 물리학적 지식을 포함하며, 여러 하류 작업으로 쉽게 전송될 수 있습니다. 우리는 이 모션 인코더를 듀얼 스트림 스페이스-타임 트랜스포머 (DSTformer) 신경망으로 구현하였습니다. 이는 스크래치에서 훈련할 때까지 가장 낮은 3D 자세 추정 오차를 보여주며, 골격 관절 간의 장거리 공간-시간 관계를 포괄적이고 적응적으로 포착할 수 있음을 입증합니다. 또한, 사전 훈련된 모션 인코더에 간단한 회귀 헤드(1-2 층)로 미세 조정(finetuning)만으로도 제안된 프레임워크는 모든 세 가지 하류 작업에서 최고 성능을 달성하였으며, 이는 학습된 모션 표현의 다용성을 보여줍니다. 코드와 모델은 https://motionbert.github.io/ 에서 제공됩니다.