2달 전
Detect-and-Track: 비디오에서 효율적인 포즈 추정
Rohit Girdhar; Georgia Gkioxari; Lorenzo Torresani; Manohar Paluri; Du Tran

초록
본 논문은 복잡한 다중 인물 비디오에서 인간 신체 키포인트를 추정하고 추적하는 문제를 다룹니다. 우리는 최신의 인간 감지 및 비디오 이해 기술을 바탕으로 매우 경량적이면서도 효과적인 접근 방식을 제안합니다. 우리의 방법은 두 단계로 작동합니다: 프레임 또는 짧은 클립에서의 키포인트 추정, 그 다음 경량 추적을 통해 전체 비디오에 걸쳐 연결된 키포인트 예측을 생성합니다. 프레임 수준의 자세 추정을 위해 Mask R-CNN을 실험하였으며, 이 모델의 3D 확장 버전도 제안하여 짧은 클립에서 시간 정보를 활용하여 더 강건한 프레임 예측을 생성하였습니다. 우리는 최근 발표된 다중 인물 비디오 자세 추정 벤치마크인 PoseTrack에서 다양한 모델 설계 선택사항들을 검증하기 위해 광범위한 점진적 실험을 수행했습니다. 우리의 접근 방식은 Multi-Object Tracking Accuracy (MOTA) 지표를 사용하여 검증 세트에서 55.2%, 테스트 세트에서 51.8%의 정확도를 달성하였으며, ICCV 2017 PoseTrack 키포인트 추적 챌린지에서 최고 성능을 보였습니다.