
초록
본 논문에서는 단일 정지 이미지에서 인간 자세 추정 문제를 다룹니다. 우리는 각 이미지 위치가 합성곱 신경망을 사용하여 각 키포인트의 위치에 대해 투표하는 새로운 접근 방식을 제안합니다. 이 투표 방식은 희소한 키포인트 위치 집합에 의존하지 않고 전체 이미지에서 정보를 활용할 수 있게 해줍니다. 밀도 높고 다중 대상 투표는 우수한 키포인트 예측뿐만 아니라, 합의된 투표를 통해 이미지에 따라 달라지는 공동 키포인트 확률을 계산할 수 있게 합니다. 이는 대부분의 이전 방법들이 상대적인 키포인트 위치에서 공동 확률을 학습하고 이미지와 독립적이라는 점과 차이가 있습니다. 마지막으로, 우리는 키포인트 투표와 공동 확률을 결합하여 최적의 자세 구성 설정을 식별합니다. MPII Human Pose 및 Leeds Sports Pose 데이터셋에서 본 방법론의 경쟁력 있는 성능을 보여주었습니다.