2달 전
SPiKE: 포인트 클라우드 시퀀스로부터 3D 인간 자세 추출
Ballester, Irene ; Peterka, Ondřej ; Kampel, Martin

초록
3차원 인간 자세 추정(3D Human Pose Estimation, HPE)은 RGB 이미지, 깊이 맵 또는 포인트 클라우드와 같은 2차원 또는 3차원 표현에서 인간의 몸체 키포인트를 3차원 공간에 위치시키는 작업입니다. 현재 깊이와 포인트 클라우드를 이용한 HPE 방법들은 주로 단일 프레임 추정에 의존하며, 시퀀스에서의 시간적 정보를 활용하지 않습니다. 본 논문에서는 시퀀스를 사용하는 3D HPE의 새로운 접근 방식인 SPiKE(Spatio-Temporal Point Cloud Keypoint Estimation)를 제시합니다. 기존 방법들과 달리 SPiKE는 트랜스포머(Transformer) 아키텍처를 채택하여 시퀀스 내 포인트 간의 공간-시간 관계를 인코딩함으로써 시간적 맥락을 활용합니다. 포인트 클라우드를 로컬 볼륨으로 분할하고, 포인트 공간 컨볼루션(point spatial convolution)을 통해 공간 특징을 추출함으로써 SPiKE는 트랜스포머가 효율적으로 처리할 수 있도록 하면서 각 타임스탬프별로 공간 무결성을 유지합니다. ITOP 벤치마크에서 수행된 실험 결과, SPiKE는 89.19% mAP를 달성하여 현행 최고 성능을 보였으며, 추론 시간도 크게 줄였습니다. 광범위한 아블레이션 연구(ablation study)는 시퀀스 활용과 우리의 알고리즘 선택의 유효성을 더욱 입증하였습니다. 코드와 모델은 다음 주소에서 확인 가능합니다: https://github.com/iballester/SPiKE