8일 전

XFormer: 빠르고 정확한 단일 카메라 3D 신체 캡처

Lihui Qian, Xintong Han, Faqiang Wang, Hongyu Liu, Haoye Dong, Zhiwen Li, Huawei Wei, Zhe Lin, Cheng-Bin Jin

초록

우리는 단일 카메라 이미지만을 입력으로 사용함에도 불구하고 소비자용 CPU에서 실시간 성능을 달성하는 새로운 인간 메시 및 모션 캡처 방법인 XFormer을 제안한다. 제안하는 네트워크 아키텍처는 두 가지 브랜치로 구성되어 있다. 하나는 2D 키포인트를 기반으로 3D 인간 메시 정점(Vertices)을 추정하는 키포인트 브랜치이고, 다른 하나는 RGB 이미지 특징에서 직접 예측을 수행하는 이미지 브랜치이다. 본 방법의 핵심은 2D 키포인트 좌표와 이미지 공간 특징 간의 주의(attention)를 모델링함으로써 두 브랜치 간 정보 흐름을 가능하게 하는 크로스모달 트랜스포머 블록이다. 본 아키텍처는 지능적으로 설계되어, 2D/3D 레이블이 있는 이미지, 3D 의사 레이블(3D pseudo labels)이 있는 이미지, 그리고 이미지와 연결되지 않은 모션 캡처 데이터셋 등 다양한 유형의 데이터셋에서 훈련이 가능하게 한다. 이를 통해 시스템의 정확도와 일반화 능력이 효과적으로 향상된다. 가벼운 백본(모바일넷V3) 기반으로 구축된 본 방법은 단일 CPU 코어에서 30fps 이상의 빠른 속도로 실행되며, 경쟁력 있는 정확도를 유지한다. 또한, HRNet 백본을 사용할 경우, XFormer은 Human3.6M 및 3DPW 데이터셋에서 최신 기술(SOTA, State-of-the-Art) 수준의 성능을 제공한다.