직접적인 다중 뷰 다중 인원 3D 자세 추정

다중 시점 이미지에서 다수 인체의 3차원 자세를 추정하기 위해 다중 시점 자세 변환기(Multi-view Pose transformer, MvP)를 제안한다. 기존의 방법들이 비용이 큰 부피 표현을 기반으로 3차원 관절 위치를 추정하거나, 여러 검출된 2차원 자세로부터 개별 인체의 3차원 자세를 재구성하는 중간 작업에 의존하는 반면, MvP는 중간 작업 없이 깔끔하고 효율적인 방식으로 다수 인체의 3차원 자세를 직접 회귀한다. 구체적으로, MvP는 뼈대 관절을 학습 가능한 쿼리 임베딩으로 표현하고, 입력 이미지로부터 다중 시점 정보를 점진적으로 주목하고 추론하여 실제 3차원 관절 위치를 직접 예측한다. 이러한 단순한 파이프라인의 정확도를 향상시키기 위해, MvP는 다수 인체 뼈대 관절의 쿼리 임베딩을 간결하게 표현하기 위한 계층적 구조를 제안하고, 입력에 따라 쿼리 임베딩을 적응시키는 새로운 접근법을 도입한다. 또한, 각 관절에 대한 다중 시점 정보를 더 정밀하게 융합하기 위해, 기하학적으로 유도된 주의 메커니즘인 ‘투사 주의(Projective Attention)’라는 새로운 메커니즘을 설계하였다. 더불어, 시점에 따라 달라지는 카메라 기하학 정보를 특징 표현에 통합하기 위해, 레이 컨볼루션(RayConv) 연산을 도입하여 투사 주의를 강화하였다. 실험을 통해 MvP 모델이 여러 벤치마크에서 최신 기술보다 우수한 성능을 보이며, 동시에 훨씬 더 효율적임을 입증하였다. 특히 도전적인 Panoptic 데이터셋에서 92.3%의 AP25를 달성하여, 이전 최고 성능 기법 [36]보다 9.8% 향상시켰다. MvP는 일반적인 구조를 가지며, SMPL 모델로 표현된 인체 메시를 복원하는 데에도 확장 가능하여, 다수 인체의 신체 형태 모델링에 유용하다. 코드와 모델은 https://github.com/sail-sg/mvp 에 공개되어 있다.