2달 전

다중 모드 시공간 패턴을 활용한 비디오 객체 추적

Xiantao Hu; Ying Tai; Xu Zhao; Chen Zhao; Zhenyu Zhang; Jun Li; Bineng Zhong; Jian Yang
다중 모드 시공간 패턴을 활용한 비디오 객체 추적
초록

다중 모드 추적은 전통적인 RGB 추적의 고유한 제한을 효과적으로 해결할 수 있는 능력으로 인해 광범위한 주목을 받고 있습니다. 그러나 기존의 다중 모드 추적기들은 대부분 공간 특성의 융합 및 향상에 초점을 맞추거나 비디오 프레임 간의 희박한 시간 관계만 활용하는 데 그치고 있습니다. 이러한 접근 방식은 다중 모드 비디오에서의 시간 상관관계를 충분히 활용하지 못하여, 복잡한 환경에서 대상의 동적 변화와 운동 정보를 포착하기 어려운 문제를 야기합니다. 이 문제를 완화하기 위해, 우리는 STTrack이라는 이름의 통합된 다중 모드 공간-시간 추적 방법을 제안합니다. 이전 패러다임이 참조 정보 업데이트에만 의존했던 것과 달리, 우리는 다중 모드 시간 정보를 지속적으로 생성하는 시간 상태 생성기 (Temporal State Generator, TSG)를 도입했습니다. 이 시간 정보 토큰들은 다음 시간 상태에서 대상의 위치 결정을 안내하고, 비디오 프레임 간의 장거리 문맥 관계를 설정하며, 대상의 시간 궤도를 포착하는 데 사용됩니다. 또한 공간 수준에서는 맘바 융합 및 배경 억제 상호작용 (Background Suppression Interaction, BSI) 모듈을 도입했습니다. 이 모듈들은 모달 간의 정보 상호작용과 융합을 조정하는 이단계 메커니즘을 구축합니다. 5개 벤치마크 데이터셋에서 수행된 광범위한 비교 실험 결과, STTrack는 다양한 다중 모드 추적 시나리오에서 최신 성능을 달성함을 보여주었습니다. 코드는 다음과 같은 주소에서 확인 가능합니다: https://github.com/NJU-PCALab/STTrack.

다중 모드 시공간 패턴을 활용한 비디오 객체 추적 | 최신 연구 논문 | HyperAI초신경