
초록
우리는 비디오 내 다수 인물의 자세 추정 및 추적 문제를 해결하기 위한 새로운 상향식 접근법을 제안한다. 기존의 상향식 접근법과 달리, 본 연구에서 제안하는 방법은 사람 탐지기의 성능에 제한되지 않으며, 위치가 특정되지 않은 인물 인스턴스의 자세도 예측할 수 있다. 이는 이미 알려진 인물 위치를 시간에 따라 전진 및 후진 방향으로 전파하고, 해당 영역 내에서 자세를 탐색함으로써 가능하게 된다. 본 방법은 세 가지 구성 요소로 이루어져 있다: (i) 짧은 비디오 클립에서 신체 관절 탐지 및 추적을 동시에 수행하는 클립 추적 네트워크(Clip Tracking Network); (ii) 클립 추적 네트워크가 생성한 고정 길이의 트랙릿(tracklets)을 임의의 길이의 트랙으로 병합하는 비디오 추적 파이프라인(Video Tracking Pipeline); (iii) 공간적 및 시간적 부드러움 항목을 기반으로 관절 위치를 정교화하는 공간-시간 병합 절차(Spatial-Temporal Merging procedure). 클립 추적 네트워크의 정밀도와 병합 절차의 효과 덕분에, 본 방법은 매우 정확한 관절 예측을 제공하며, 사람 간이 겹쳐져 복잡한 상황과 같은 어려운 케이스에서 흔히 발생하는 오류를 수정할 수 있다. 본 방법은 PoseTrack 2017 및 2018 데이터셋에서 상향식 및 하향식 접근법을 포함한 모든 기존 방법과 비교하여 자세 탐지 및 추적 측면에서 최고 성능을 달성하였다.