PoseFormerV2: 주파수 영역을 활용한 효율적이고 강건한 3D 인간 자세 추정 연구

최근, 트랜스포머 기반 방법이 순차적인 2D-3D 포즈 추정에서 상당한 성공을 거두었습니다. 선구적인 연구로, PoseFormer는 캐스케이드된 트랜스포머 레이어를 통해 각 비디오 프레임 내의 인간 관절 간 공간적 관계와 프레임 간의 인간 동역학을 포착하여 인상적인 성능을 달성하였습니다. 그러나 실제 시나리오에서는 PoseFormer와 그 후속 연구들이 두 가지 요인에 의해 성능이 제한됩니다: (a) 입력 관절 시퀀스의 길이; (b) 2D 관절 검출의 품질. 기존 방법들은 일반적으로 입력 시퀀스의 모든 프레임에 자기 주목력을 적용하므로, 고급 추정 정확도를 얻기 위해 프레임 수가 증가할 때 막대한 계산 부담을 초래하며, 2D 관절 검출기의 한정된 능력으로 인해 자연적으로 발생하는 노이즈에 대해 강건하지 않습니다.본 논문에서는 이러한 문제를 해결하기 위해 PoseFormerV2를 제안합니다. 이 방법은 주파수 영역에서 긴 스켈레톤 시퀀스의 압축된 표현을 활용하여 수용 필드를 효율적으로 확장하고, 노이즈 있는 2D 관절 검출에 대한 강건성을 향상시킵니다. PoseFormer에 최소한의 수정만 가함으로써, 제안된 방법은 시간 영역과 주파수 영역에서 특징들을 효과적으로 융합하여 전작보다 더 우수한 속도-정확도 균형을 제공합니다. Human3.6M와 MPI-INF-3DHP 두 벤치마크 데이터셋에서 수행된 광범위한 실험 결과, 제안된 접근법이 원래의 PoseFormer 및 다른 트랜스포머 기반 변형 모델들보다 유의미하게 우수한 성능을 보였습니다. 코드는 \url{https://github.com/QitaoZhao/PoseFormerV2}에서 공개되었습니다.