2달 전

포세이돈: 다중 프레임 포즈 추정을 위한 적응형 프레임 가중과 다중 스케일 특성 융합 기반 ViT 아키텍처

Pace, Cesare Davide ; De Nunzio, Alessandro Marco ; De Stefano, Claudio ; Fontanella, Francesco ; Molinara, Mario
포세이돈: 다중 프레임 포즈 추정을 위한 적응형 프레임 가중과 다중 스케일 특성 융합 기반 ViT 아키텍처
초록

인체 자세 추정은 컴퓨터 비전에서 중요한 작업으로, 이미지와 동영상에서 인체 관절을 감지하고 위치를 결정하는 과정을 포함합니다. 단일 프레임 자세 추정은 상당한 발전을 이루어냈지만, 복잡하고 연속적인 움직임을 이해하기 위한 시간적 동역학을 포착하는 데 종종 실패합니다. 이러한 제한 사항을 해결하기 위해, 우리는 ViTPose 모델에 시간 정보를 통합하여 정확도와 견고성을 향상시키는 새로운 다중 프레임 자세 추정 아키텍처인 Poseidon을 제안합니다. Poseidon은 주요 혁신 기술들을 도입하였습니다: (1) 관련성에 따라 프레임의 우선순위를 동적으로 조정하여 모델이 가장 유용한 데이터에 집중할 수 있도록 하는 적응형 프레임 가중치(AFW) 메커니즘; (2) 세부 정보와 고차원 의미를 모두 포착하기 위해 다양한 백본 레이어에서 특징을 집계하는 다중 스케일 특징 융합(MSFF) 모듈; 그리고 (3) 중앙 프레임과 맥락적 프레임 간의 효과적인 정보 교환을 통해 모델의 시간 일관성을 강화하는 크로스 어텐션 모듈입니다. 제안된 아키텍처는 복잡한 비디오 시나리오에서 성능을 개선하며, 실제 응용 분야에 적합한 확장성과 계산 효율성을 제공합니다. 우리의 접근 방식은 PoseTrack21 및 PoseTrack18 데이터셋에서 최고 수준의 성능을 달성하여 각각 mAP 점수 88.3과 87.8를 기록하였으며, 기존 방법들을 능가하였습니다.

포세이돈: 다중 프레임 포즈 추정을 위한 적응형 프레임 가중과 다중 스케일 특성 융합 기반 ViT 아키텍처 | 최신 연구 논문 | HyperAI초신경