
초록
본 논문에서는 다중 시점 영상에서 다수의 사람에 대한 3차원 자세를 추정하기 위한 간단하면서도 효과적인 접근법을 제안한다. 제안하는 계층적(코어스 투 파인) 파이프라인은 먼저 여러 카메라 시점에서 얻은 노이즈가 포함된 2차원 관측값을 3차원 공간으로 통합한 후, 신뢰도를 고려한 다수결 기법을 활용해 각 개별 인스턴스로 연결한다. 최종 자세 추정은 높은 신뢰도를 가진 다중 시점 2차원 관측값과 3차원 관측 후보 간을 연결하는 새로운 최적화 방식을 통해 도출된다. 또한, SMPL과 같은 통계적 매개변수 신체 모델이 3차원 관측 후보에 대한 정규화 사전 정보로 활용되며, 특히 3차원 자세와 SMPL 매개변수는 교대 방식으로 공동 최적화된다. 이 과정에서 매개변수 모델은 부자연스러운 3차원 자세 추정을 수정하고 누락된 관측을 보완하는 데 기여하며, 업데이트된 3차원 자세는 더 정교한 SMPL 추정을 가능하게 한다. 2차원 및 3차원 관측값을 연결함으로써 제안한 방법은 다양한 데이터 소스에 대해 일반화 가능하며, 인물 간 상대적 배치(인터-퍼슨 콘스타ellation)에 대한 종속성을 줄여 정확도를 높이고, 노이즈가 많은 2차원 관측값에 대해 더욱 강건하다. 우리는 공개 데이터셋을 대상으로 체계적인 평가를 수행하여 최신 기술 수준의 성능을 달성하였다. 코드와 동영상은 프로젝트 페이지에서 공개될 예정이며, URL은 다음과 같다: https://ait.ethz.ch/projects/2021/multi-human-pose/.