11일 전

VTP: 다중 시점 다중 인물 3D 자세 추정을 위한 부피 변환기

Yuxing Chen, Renshu Gu, Ouhan Huang, Gangyong Jia
VTP: 다중 시점 다중 인물 3D 자세 추정을 위한 부피 변환기
초록

이 논문은 다중 카메라 다중 인물 3차원 인간 자세 추정을 위한 최초의 3차원 볼륨 트랜스포머 프레임워크인 Volumetric Transformer Pose Estimator(VTP)을 제안한다. VTP는 모든 카메라 뷰의 2차원 키포인트로부터 특징을 집계하고, 3차원 볼륨 공간에서의 공간적 관계를 엔드 투 엔드 방식으로 직접 학습한다. 집계된 3차원 특징은 3차원 컨볼루션을 거친 후 평탄화되어 시퀀스 임베딩으로 변환되고, 트랜스포머에 입력된다. 성능을 further 향상시키기 위해 잔차 구조(Residual structure)가 설계되었다. 또한, 볼륨 표현의 주요 장벽인 메모리 비용을 줄이기 위해 희소 Sinkhorn 어텐션(Sparse Sinkhorn attention)이 도입되었으며, 이는 우수한 성능을 동시에 달성한다. 트랜스포머의 출력은 잔차 구조를 통해 다시 3차원 컨볼루션 특징과 결합된다. 제안된 VTP 프레임워크는 트랜스포머의 높은 성능과 볼륨 표현을 융합하여, 기존 컨볼루션 백본의 효과적인 대안으로 활용될 수 있다. Shelf, Campus 및 CMU Panoptic 벤치마크에서의 실험 결과는 평균 관절 위치 오차(MPJPE)와 정확히 추정된 부위 비율(PCP) 측면에서 유망한 성능을 보였다. 본 논문의 코드는 공개될 예정이다.

VTP: 다중 시점 다중 인물 3D 자세 추정을 위한 부피 변환기 | 최신 연구 논문 | HyperAI초신경