EgoPoseFormer: Stereo Egocentric 3D 인간 포즈 추정을 위한 간단한 기준 모델

우리는 스테레오 에고센트릭 인간 자세 추정을 위한 간단하면서도 효과적인 트랜스포머 기반 모델인 EgoPoseFormer를 제시합니다. 에고센트릭 자세 추정의 주요 과제는 셀프 오클루전 또는 헤드마운트 카메라의 제한된 시야각(F OV)으로 인해 발생하는 관절 가림 문제를 극복하는 것입니다. 우리의 접근 방식은 이 과제를 해결하기 위해 두 단계의 자세 추정 패러다임을 통합합니다: 첫 번째 단계에서는 전역 정보를 활용하여 각 관절의 대략적인 위치를 추정하고, 두 번째 단계에서는 세부 입체 시각 특성을 활용하여 대략적인 위치를 정교하게 조정하는 DETR 스타일의 트랜스포머를 사용합니다. 또한, 우리의 트랜스포머가 다중 뷰 특성을 효과적으로 처리할 수 있도록 하는 Deformable Stereo Attention 연산을 제시합니다. 이를 통해 3D 세계에서 각 관절을 정확히 위치시킬 수 있습니다.우리는 스테레오 UnrealEgo 데이터셋에서 본 방법론을 평가하였으며, 이는 기존 접근 방식보다 크게 우수한 성능을 보여주면서도 계산적으로 효율적임을 입증하였습니다: 최신 연구와 비교하여 모델 파라미터 7.9%, FLOPs 13.1%만 사용하면서 MPJPE(Mean Per Joint Position Error)를 27.4mm(45% 개선) 향상시키는 것으로 나타났습니다. 놀랍게도 적절한 학습 설정 하에서, 첫 번째 단계의 자세 제안 네트워크조차도 기존 연구보다 우수한 성능을 보이는 것을 발견하였습니다. 또한, 본 방법론이 단일 시점 설정으로 원활하게 확장될 수 있음을 보였으며, SceneEgo 데이터셋에서 최고 수준의 성능을 달성하였습니다: 최고 기존 방법과 비교하여 모델 파라미터 60.7%, FLOPs 36.4%만 사용하면서 MPJPE를 25.5mm(21% 개선) 향상시키는 것으로 나타났습니다.코드는 다음 링크에서 확인 가능합니다:https://github.com/ChenhongyiYang/egoposeformer .