
초록
본 논문은 단일 이미지에서 3차원 인간 자세 추정 문제를 다룹니다. 우리는 먼저 $N$ 개의 신체 관절의 2차원 위치를 감지한 후, 이 관찰값을 사용하여 3차원 자세를 유추하는 표준적인 두 단계 파이프라인을 따릅니다. 첫 번째 단계에서는 최근의 CNN 기반 검출기를 사용합니다. 두 번째 단계에서는 대부분의 기존 접근 방식이 카르테시안 관절 좌표의 2$N$-to-3$N$ 회귀를 수행합니다. 우리는 2차원과 3차원 인간 자세를 $N\times N$ 거리 행렬로 표현하고, 문제를 2D-to-3D 거리 행렬 회귀로 정식화함으로써 더 정확한 자세 추정 값을 얻을 수 있음을 보여줍니다. 이러한 회귀기의 학습을 위해 간단한 신경망 구조를 활용하며, 이 구조는 예측된 행렬의 양성과 대칭성을 강제합니다. 본 접근 방식은 자연스럽게 누락된 관찰값을 처리할 수 있으며, 비관찰된 관절의 위치를 가설화할 수 있는 장점도 있습니다. Humaneva와 Human3.6M 데이터셋에 대한 정량적 결과는 최신 연구보다 일관된 성능 향상을 보여주며, Human3.6M에서 학습된 회귀기를 사용하여 LSP 데이터셋의 야외 이미지에 대한 정성적 평가는 매우 유망한 일반화 결과를 나타냅니다.