모든 관절의 움직임 포착: 독립 토큰을 이용한 3D 인간 자세 및 형태 추정

본 논문에서는 단일 카메라 비디오에서 3D 인간 자세와 형태를 추정하기 위한 새로운 방법을 제시합니다. 이 작업은 단일 이미지나 비디오로부터 픽셀 정렬 3D 인간 자세와 체형을 직접 복원하는 것으로, 본질적인 모호성 때문에 어려움이 따릅니다. 기존 방법들은 정밀도를 향상시키기 위해 초기화된 평균 자세와 형태를 사전 추정치로 활용하고, 반복적인 오류 피드백 방식으로 매개변수 회귀에 크게 의존합니다. 또한, 비디오 기반 접근법들은 이미지 수준의 특징 변화를 모델링하여 시간적으로 단일 프레임 특징을 강화하지만, 관절 수준의 회전 운동을 포착하지 못하며, 국부적인 시간 일관성을 보장할 수 없습니다.이러한 문제들을 해결하기 위해 우리는 독립 토큰 설계를 바탕으로 한 새로운 트랜스포머 기반 모델을 제안합니다. 먼저, 이미지 특징과 독립적인 세 가지 유형의 토큰인 \textit{관절 회전 토큰(joint rotation tokens), 형태 토큰(shape token), 그리고 카메라 토큰(camera token)}을 소개합니다. 트랜스포머 레이어를 통해 점진적으로 이미지 특징과 상호작용하면서 이러한 토큰들은 대규모 데이터에서 인간 3D 관절 회전, 체형 및 위치 정보의 사전 지식을 인코딩하고, 주어진 이미지를 조건으로 하여 SMPL 매개변수를 추정하도록 업데이트됩니다.둘째로, 제안된 토큰 기반 표현 덕분에 우리는 각 관절의 회전 시간 정보를 포착하는 데 초점을 맞춘 시간 모델을 추가로 사용합니다. 이는 경험적으로 국부 부위에서 큰 진동을 방지하는 데 도움이 됩니다. 개념적으로 간단함에도 불구하고, 제안된 방법은 3DPW와 Human3.6M 데이터셋에서 우수한 성능을 보입니다. ResNet-50 및 트랜스포머 아키텍처를 사용하여 도전적인 3DPW 데이터셋의 PA-MPJPE 메트릭에서 42.0 mm 오차를 얻었으며, 최신 연구 결과들보다 크게 앞서는 성능을 보였습니다. 코드는 https://github.com/yangsenius/INT_HMR_Model 에 공개될 예정입니다.