비디오에서 3D 인간 동역학 학습

행동 중인 사람의 이미지에서 우리는 쉽게 그 사람이 과거와 미래에 어떻게 3차원으로 움직였는지를 추측할 수 있습니다. 이는 우리가 사람들의 움직임을 관찰하면서 얻은 3차원 인간 역학에 대한 정신적 모델을 가지고 있기 때문입니다. 본 연구에서는 비디오를 통해 이미지 특징의 간단하지만 효과적인 시간적 인코딩을 사용하여 유사하게 3차원 인간 역학의 표현을 학습하는 프레임워크를 제시합니다. 테스트 시, 비디오로부터 학습된 시간적 표현은 부드러운 3차원 메시 예측을 생성합니다. 단일 이미지에서도 우리의 모델은 현재 3차원 메시뿐만 아니라 그 3차원 과거 및 미래 운동도 복구할 수 있습니다. 우리의 접근 방식은 2D 자세 주석이 있는 비디오에서 준지도 방식으로 학습할 수 있도록 설계되었습니다. 주석이 달린 데이터는 항상 제한적이지만, 인터넷에는 매일 수백만 개의 비디오가 업로드됩니다. 본 연구에서는 오프더shelf 2D 자세 검출기에서 얻은 의사-정답(ground truth) 2D 자세를 사용하여 라벨이 없는 비디오에서 모델을 훈련시키는 방법으로 이러한 대규모 인터넷 출처의 라벨이 없는 데이터를 활용했습니다. 실험 결과, 더 많은 의사-정답 2D 자세가 포함된 비디오를 추가하면 3차원 예측 성능이 단조롭게 향상됨을 보여주었습니다. 우리는 최근 도전적인 '야외 환경에서의 3D 자세' 데이터셋에서 HMMR(Human Mesh and Motion Recovery) 모델을 평가하였으며, 미세 조정(fine-tuning) 없이도 이 태스크에서 최고 수준의 성능을 달성하였습니다. 프로젝트 웹사이트에는 동영상, 코드, 데이터 등이 포함되어 있으며, 다음 링크에서 확인할 수 있습니다: https://akanazawa.github.io/human_dynamics/.