비디오 기반 3D 인간 자세 및 형태 추정을 위한 전역-국소 모델링

비디오 기반 3D 인간 자세 및 형태 추정은 프레임 내 정확성과 프레임 간 부드러움으로 평가됩니다. 이 두 가지 지표는 서로 다른 시간 일관성 범위를 담당하지만, 기존의 최신 방법들은 이를 통합된 문제로 취급하고 단조로운 모델링 구조(예: RNN 또는 어텐션 기반 블록)를 사용하여 네트워크를 설계합니다. 그러나 단일 종류의 모델링 구조를 사용하면 단기와 장기 시간 상관관계의 학습을 균형 있게 유지하기 어렵고, 네트워크가 그 중 하나에 편향될 수 있어 전역 위치 이동, 시간 불일관성, 그리고 충분하지 않은 국부적 세부 정보와 같은 바람직하지 않은 예측을 초래할 수 있습니다.이러한 문제들을 해결하기 위해, 우리는 전역에서 국부적인 변환기(Global-to-Local Transformer, GLoT)라는 엔드투엔드 프레임워크에서 장기와 단기 상관관계의 모델링을 구조적으로 분리하는 방법을 제안합니다. 첫째, 장기 모델링을 위해 마스킹된 자세 및 형태 추정 전략(Masked Pose and Shape Estimation)을 도입한 전역 변환기를 소개합니다. 이 전략은 여러 프레임의 특성을 무작위로 마스킹하여 더 많은 프레임 간 상관관계를 학습하도록 전역 변환기를 자극합니다. 둘째, 국부 변환기는 인간 메시의 국부적 세부 정보를 활용하고 크로스 어텐션을 통해 전역 변환기와 상호 작용합니다. 또한, 계층적 공간 상관관계 회귀기(Hierarchical Spatial Correlation Regressor)가 도입되어 분리된 전역-국부 표현과 암시적인 운동학적 제약 조건을 통해 프레임 내 추정값을 개선합니다.우리의 GLoT는 인기 있는 벤치마크인 3DPW, MPI-INF-3DHP, Human3.6M에서 가장 적은 모델 매개변수로 이전 최신 방법들을 능가합니다. 코드는 https://github.com/sxl142/GLoT에서 확인할 수 있습니다.