17일 전

3차원 인간 자세 추정을 위한 적응형 다중 시점 및 시간 통합 트랜스포머

Hui Shuai, Lele Wu, Qingshan Liu
3차원 인간 자세 추정을 위한 적응형 다중 시점 및 시간 통합 트랜스포머
초록

이 논문은 3D 인간 자세 추정(HPE)에서 카메라 캘리브레이션 없이 다양한 시점 수와 영상 길이를 적응적으로 처리할 수 있도록, 통합적인 프레임워크인 다중 시점 및 시간 정보 융합 트랜스포머(Multi-view and Temporal Fusing Transformer, MTF-Transformer)를 제안한다. MTF-Transformer는 특징 추출기(Feature Extractor), 다중 시점 융합 트랜스포머(Multi-view Fusing Transformer, MFT), 시간 융합 트랜스포머(Temporal Fusing Transformer, TFT)로 구성된다. 특징 추출기는 각 이미지로부터 2D 자세를 추정하고 신뢰도에 따라 예측을 융합한다. 이 과정을 통해 자세 중심의 특징 임베딩을 제공하며, 후속 모듈의 계산 부담을 줄여 효율적인 구조를 구현한다. MFT는 새로운 상대 주의(Relative-Attention) 블록을 도입하여 시점 수가 변하는 경우에도 각 시점 쌍 간의 은유적 상대 관계를 적응적으로 측정하고, 더 정보량이 풍부한 특징을 재구성한다. TFT는 전체 시퀀스의 특징을 집계하여 트랜스포머 기반 방식으로 3D 자세를 예측하며, 임의의 길이 영상에 대해 적응적으로 처리하고 시간 정보를 완전히 활용한다. 트랜스포머의 도입으로 인해 모델은 공간 기하 구조를 더 잘 학습할 수 있으며, 다양한 응용 환경에서도 뛰어난 강건성을 유지한다. Human3.6M, TotalCapture, KTH Multiview Football II 데이터셋에서 정량적 및 정성적 실험 결과를 제시하며, 카메라 파라미터를 사용하는 최신 기법들과 비교해 경쟁력 있는 성능을 보이며, 미지의 시점 수가 임의로 존재하는 동적 캡처 환경에서도 우수한 일반화 능력을 입증한다.

3차원 인간 자세 추정을 위한 적응형 다중 시점 및 시간 통합 트랜스포머 | 최신 연구 논문 | HyperAI초신경