2달 전

V2V-PoseNet: 단일 깊이 맵에서 정확한 3D 손과 인체 자세 추정을 위한 복셀-복셀 예측 네트워크

Gyeongsik Moon; Ju Yong Chang; Kyoung Mu Lee
V2V-PoseNet: 단일 깊이 맵에서 정확한 3D 손과 인체 자세 추정을 위한 복셀-복셀 예측 네트워크
초록

기존의 단일 깊이 맵에서 3D 손 및 인간 자세를 추정하는 대부분의 딥 러닝 기반 방법은 2D 깊이 맵을 받아 2D 합성곱 신경망(CNN)을 통해 손이나 인간 몸체 관절과 같은 키포인트의 3D 좌표를 직접 회귀하는 공통적인 프레임워크를 기반으로 합니다. 이 접근 방식의 첫 번째 약점은 2D 깊이 맵에 존재하는 원근왜곡입니다. 깊이 맵은 본질적으로 3D 데이터이지만, 많은 이전 연구들은 3D 공간에서 2D 공간으로 투사될 때 실제 객체의 모양을 왜곡할 수 있는 2D 이미지로 처리하였습니다. 이는 네트워크가 원근왜곡 불변 추정을 수행하도록 강제합니다. 두 번째 약점은 2D 이미지에서 3D 좌표를 직접 회귀하는 것이 매우 비선형 매핑이라는 점으로, 이는 학습 과정에서 어려움을 초래합니다. 이러한 약점을 극복하기 위해, 우리는 단일 깊이 맵에서 3D 손 및 인간 자세 추정 문제를 3D 복셀화 그리드를 사용하여 각 키포인트의 복셀별 확률을 추정하는 복셀-복셀 예측 문제로 전환하였습니다. 우리의 모델은 실시간으로 실행하면서도 정확한 추정 값을 제공하도록 설계되었습니다. 우리의 시스템은 거의 모든 공개된 3D 손 및 인간 자세 추정 데이터셋에서 이전 방법들을 능가하였으며, HANDS 2017 프레임 기반 3D 손 자세 추정 챌린지에서 우승하였습니다. 코드는 https://github.com/mks0601/V2V-PoseNet_RELEASE 에서 확인할 수 있습니다.