4달 전

TriPose: 비디오에서 삼각측량을 통한 약간의 지도를 받는 3D 인간 자세 추정

Mohsen Gholami; Ahmad Rezaei; Helge Rhodin; Rabab Ward; Z. Jane Wang
TriPose: 비디오에서 삼각측량을 통한 약간의 지도를 받는 3D 인간 자세 추정
초록

비디오에서 3D 인간 자세를 추정하는 것은 어려운 문제입니다. 3D 인간 자세 주석의 부족은 지도 학습과 미확인 데이터셋으로의 일반화에 큰 장애가 됩니다. 본 연구에서는 이 문제를 해결하기 위해 3D 주석이나 캘리브레이션된 카메라가 필요하지 않은 약한 지도 학습 방식을 제안합니다. 제안된 방법은 시간 정보와 삼각측량에 기반합니다. 여러 시점에서 얻은 2D 자세를 입력으로 사용하여 먼저 상대적인 카메라 방향을 추정하고, 그 다음 삼각측량을 통해 3D 자세를 생성합니다. 삼각측량은 고신뢰도의 2D 인간 관절만을 대상으로 적용됩니다. 생성된 3D 자세는 2D 자세로부터 3D 자세를 추정하는 순환 리프팅 네트워크(RLN)를 훈련시키는 데 사용됩니다. 또한, 추정된 3D 자세에 대해 다중 시점 재투영 손실을 적용하여 여러 시점에서 추정된 3D 자세의 일관성을 보장합니다. 따라서, 본 방법은 실제 환경에서 제약 조건을 완화하며, 훈련에 필요한 것은 단지 다중 시점 비디오뿐입니다. 이로 인해 야외 환경에서도 편리하게 활용할 수 있습니다. 추론 단계에서는 RLN이 단일 시점 비디오만 필요로 합니다. 제안된 방법은 Human3.6M 및 MPI-INF-3DHP 두 개의 도전적인 데이터셋에서 이전 연구보다 우수한 성능을 보였습니다. 코드와 사전 훈련된 모델은 공개될 예정입니다.