2달 전

비디오에서 시간적 합성곱과 반지도 학습을 이용한 3D 인간 자세 추정

Dario Pavllo; Christoph Feichtenhofer; David Grangier; Michael Auli
비디오에서 시간적 합성곱과 반지도 학습을 이용한 3D 인간 자세 추정
초록

본 연구에서는 2D 키포인트에 대한 희소 시간 합성곱을 기반으로 하는 완전 합성곱 모델을 사용하여 비디오에서 3D 포즈를 효과적으로 추정할 수 있음을 보여줍니다. 또한 라벨이 부착되지 않은 비디오 데이터를 활용하는 간단하면서도 효과적인 준지도 학습 방법인 역투영(back-projection)을 소개합니다. 우리는 라벨이 부착되지 않은 비디오의 예측된 2D 키포인트로 시작하여, 3D 포즈를 추정한 후 최종적으로 입력 2D 키포인트로 역투영합니다. 지도 학습 환경에서, 우리의 완전 합성곱 모델은 Human3.6M 데이터셋에서 이전 문헌의 최고 결과보다 관절 위치 오차 평균 6mm가 적어, 오차 감소율이 11%에 해당하며, HumanEva-I에서도 상당한 개선을 보입니다. 또한 역투영 실험 결과는 라벨이 부족한 준지도 학습 환경에서 이전 최신 연구 결과보다 크게 우수함을 확인할 수 있었습니다. 코드와 모델은 https://github.com/facebookresearch/VideoPose3D 에서 제공됩니다.

비디오에서 시간적 합성곱과 반지도 학습을 이용한 3D 인간 자세 추정 | 최신 연구 논문 | HyperAI초신경