2달 전
비디오 레벨 객체 추적을 위한 개선된 문맥 정보 탐구
Ben Kang; Xin Chen; Simiao Lai; Yang Liu; Yi Liu; Dong Wang

초록
비디오 수준의 문맥 정보는 시각적 객체 추적에서 점점 더 중요한 역할을 하고 있습니다. 그러나 기존 방법들은 이 정보를 전달하기 위해 보통 몇 개의 토큰만 사용하므로 정보 손실이 발생하고 문맥을 완전히 포착하는 능력에 제한이 있을 수 있습니다. 이러한 문제를 해결하기 위해 우리는 새로운 비디오 수준의 시각적 객체 추적 프레임워크인 MCITrack을 제안합니다. 이 프레임워크는 Mamba의 은닉 상태를 활용하여 비디오 스트림 전체에 걸쳐 광범위한 문맥 정보를 지속적으로 기록하고 전송하여, 더욱 견고한 객체 추적을 실현합니다. MCITrack의 핵심 구성 요소는 mamba 레이어와 크로스-어텐션 레이어로 구성된 문맥 정보 융합 모듈입니다. mamba 레이어는 과거의 문맥 정보를 저장하며, 크로스-어텐션 레이어는 이를 각 백본 블록의 현재 시각 특성에 통합합니다. 이 모듈은 백본과 깊게 통합함으로써 다수준에서 문맥 정보를 포착하고 활용하는 모델의 능력을 강화합니다. 실험 결과, MCITrack은 다양한 벤치마크에서 경쟁력 있는 성능을 보였습니다. 예를 들어, LaSOT에서는 76.6%의 AUC(Area Under Curve) 값을 얻었으며, GOT-10k에서는 80.0%의 AO(Average Overlap) 값을 달성하여 새로운 최신 성능(SOTA: State-of-the-Art)을 설정하였습니다. 코드와 모델은 https://github.com/kangben258/MCITrack에서 제공됩니다.