
초록
우리는 단일 카메라 비디오에서 정확한 3D 인간 자세와 메시를 복원하기 위한 번들 조정 기반 알고리즘을 제시합니다. 이전의 단일 프레임에 작동하는 알고리즘과 달리, 우리는 전체 시퀀스에서 사람을 재구성함으로써 추가적인 제약 조건이 모호성을 해결할 수 있음을 보여줍니다. 이는 비디오가 종종 사람의 여러 시점을 제공하지만, 전반적인 몸체 형태는 변하지 않고 3D 위치가 천천히 변화하기 때문입니다. 우리의 방법은 표준 모션 캡처 기반 데이터셋인 Human 3.6M -- 여기서 우리는 양적 개선을 보여줍니다 -- 뿐만 아니라 Kinetics와 같은 도전적인 실세계 데이터셋에서도 성능을 향상시키는 것으로 나타났습니다. 이러한 알고리즘을 바탕으로, 우리는 Kinetics에서 유래된 YouTube 비디오 300만 프레임 이상으로 구성된 자동 생성 3D 자세 및 메시를 포함하는 새로운 데이터셋을 제시합니다. 우리는 이 데이터로 단일 프레임 3D 자세 추정기를 재학습하면 3DPW와 HumanEVA 데이터셋에서 평가한 결과, 실제 세계와 모션 캡처 데이터 모두에서 정확도가 향상됨을 보여주었습니다.