17일 전
MHFormer: 3차원 인간 자세 추정을 위한 다중 가설 트랜스포머
Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool

초록
단일 카메라 영상에서 3차원 인간 자세를 추정하는 것은 깊이에 대한 모호성과 자기 가림 현상으로 인해 도전적인 과제이다. 기존의 대부분의 연구들은 공간적 및 시간적 관계를 활용하여 이 두 문제를 동시에 해결하려는 시도를 하고 있다. 그러나 이러한 접근 방식은 다수의 타당한 해(즉, 가설)가 존재하는 역 문제라는 사실을 간과하고 있다. 이 제약을 완화하기 위해 우리는 여러 타당한 자세 가설의 공간-시간 표현을 학습하는 다중 가설 트랜스포머(MHFormer)를 제안한다. 다중 가설 간의 종속성과 가설 특징 간의 강력한 관계를 효과적으로 모델링하기 위해 이 작업을 세 단계로 분해한다: (i) 여러 초기 가설 표현 생성; (ii) 자기 가설 간의 통신 모델링, 다수의 가설을 하나의 수렴된 표현으로 병합한 후 이를 여러 분기된 가설로 분할; (iii) 다중 가설 간의 상호작용을 학습하고, 다중 가설 특징을 집계하여 최종 3차원 자세를 합성한다. 위 과정을 통해 최종 표현이 강화되고, 합성된 자세의 정확도가 크게 향상된다. 광범위한 실험 결과에 따르면, MHFormer은 Human3.6M과 MPI-INF-3DHP라는 두 가지 도전적인 데이터셋에서 최신 기술 수준의 성능을 달성하였다. 복잡한 부가 기능 없이도 Human3.6M에서 이전 최고 성능을 3% 이상 뛰어넘는 결과를 보였다. 코드와 모델은 \url{https://github.com/Vegetebird/MHFormer}에서 공개되어 있다.