17일 전

MHFormer: 3차원 인간 자세 추정을 위한 다중 가설 트랜스포머

Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool
MHFormer: 3차원 인간 자세 추정을 위한 다중 가설 트랜스포머
초록

단일 카메라 영상에서 3차원 인간 자세를 추정하는 것은 깊이에 대한 모호성과 자기 가림 현상으로 인해 도전적인 과제이다. 기존의 대부분의 연구들은 공간적 및 시간적 관계를 활용하여 이 두 문제를 동시에 해결하려는 시도를 하고 있다. 그러나 이러한 접근 방식은 다수의 타당한 해(즉, 가설)가 존재하는 역 문제라는 사실을 간과하고 있다. 이 제약을 완화하기 위해 우리는 여러 타당한 자세 가설의 공간-시간 표현을 학습하는 다중 가설 트랜스포머(MHFormer)를 제안한다. 다중 가설 간의 종속성과 가설 특징 간의 강력한 관계를 효과적으로 모델링하기 위해 이 작업을 세 단계로 분해한다: (i) 여러 초기 가설 표현 생성; (ii) 자기 가설 간의 통신 모델링, 다수의 가설을 하나의 수렴된 표현으로 병합한 후 이를 여러 분기된 가설로 분할; (iii) 다중 가설 간의 상호작용을 학습하고, 다중 가설 특징을 집계하여 최종 3차원 자세를 합성한다. 위 과정을 통해 최종 표현이 강화되고, 합성된 자세의 정확도가 크게 향상된다. 광범위한 실험 결과에 따르면, MHFormer은 Human3.6M과 MPI-INF-3DHP라는 두 가지 도전적인 데이터셋에서 최신 기술 수준의 성능을 달성하였다. 복잡한 부가 기능 없이도 Human3.6M에서 이전 최고 성능을 3% 이상 뛰어넘는 결과를 보였다. 코드와 모델은 \url{https://github.com/Vegetebird/MHFormer}에서 공개되어 있다.

MHFormer: 3차원 인간 자세 추정을 위한 다중 가설 트랜스포머 | 최신 연구 논문 | HyperAI초신경