Multi-HMR: 단일 샷에서 다중 인물 전신 인간 메시 복원

우리는 단일 RGB 이미지에서 다수의 사람에 대한 3D 인간 메시 복원을 위한 강력한 단일 샷 모델인 Multi-HMR을 제시합니다. 이 모델은 SMPL-X 매개변수 모델과 카메라 좌표계에서의 3D 위치를 사용하여 전체 몸체, 즉 손과 얼굴 표현까지 포함하여 예측합니다. 우리의 모델은 표준 비전 트랜스포머(ViT) 백본이 생성한 특징을 사용하여 사람들의 대략적인 2D 히트맵을 예측함으로써 사람들을 감지합니다. 그런 다음 새로운 크로스-어텐션 모듈인 Human Prediction Head (HPH)를 사용하여 각 감지된 사람에 대한 전체 특징 세트에 주목하는 하나의 쿼리를 통해 그들의 전체 몸체 자세, 형태 및 3D 위치를 예측합니다.기존 데이터에서 직접적으로 세부적인 손과 얼굴 자세를 단일 샷으로 예측하는 것은, 즉 신체 부위 주변의 명시적인 잘림 없이 학습하는 것이 어려우므로, 우리는 CUFFS(Close-Up Frames of Full-Body Subjects)라는 데이터셋을 소개합니다. 이 데이터셋은 다양한 손 자세를 가진 카메라 근처에 있는 사람들로 구성되어 있습니다. 우리는 이를 학습 데이터에 통합하면 특히 손에 대한 예측이 더욱 향상됨을 보여줍니다. Multi-HMR은 또한 카메라 내부 파라미터가 제공되는 경우, 각 이미지 토큰에 대한 카메라 레이 방향을 인코딩하여 선택적으로 고려할 수 있습니다.이 간단한 설계는 전체 몸체와 몸체만의 벤치마크에서 동시에 강력한 성능을 달성합니다: $448{\times}448$ 크기의 이미지를 처리하는 ViT-S 백본은 이미 빠르고 경쟁력 있는 모델을 제공하며, 더 큰 모델과 더 높은 해상도는 최신 연구 결과를 얻습니다.