2달 전
MambaVT: 강건한 RGB-T 추적을 위한 시공간 문맥 모델링
Simiao Lai; Chang Liu; Jiawen Zhu; Ben Kang; Yang Liu; Dong Wang; Huchuan Lu

초록
기존의 RGB-T 추적 알고리즘은 트랜스포머 아키텍처의 전역 상호작용 능력과 광범위한 사전 학습 모델을 활용하여 뛰어난 발전을 이룩하였습니다. 그럼에도 불구하고 이러한 방법들은 주로 이미지 쌍의 외관 매칭에 의존하며, 어텐션 메커니즘의 본질적인 고차 복잡성으로 인해 시간 정보를 충분히 활용하는 데 어려움을 겪고 있습니다. 최근 등장한 상태 공간 모델 맘바(Mamba)가 인상적인 장기 시퀀스 모델링 능력과 선형 계산 복잡성을 갖추고 있다는 점에서 영감을 받아, 본 연구는 강건한 가시광-열 추적을 위해 시공간 컨텍스트 모델링을 완전히 활용하는 순수 맘바 기반 프레임워크(MambaVT)를 혁신적으로 제안합니다. 구체적으로, 우리는 대규모 크로스 프레임 통합 구성요소를 설계하여 대상의 외관 변화에 전역적으로 적응할 수 있도록 하였으며, 단기 역사적 궤도 프롬프트를 도입하여 로컬 시간 위치 힌트를 바탕으로 후속 대상 상태를 예측하였습니다. 광범위한 실험 결과는 비전 맘바의 RGB-T 추적에 대한 큰 잠재력을 보여주며, MambaVT는 네 가지 주요 벤치마크에서 최고 수준의 성능을 달성하면서도 더 낮은 계산 비용이 요구되는 것으로 나타났습니다. 우리는 이 연구가 간단하면서도 강력한 기준선 역할을 하여 해당 분야의 향후 연구를 촉진하기를 목표로 하고 있으며, 코드와 사전 학습된 모델은 공개될 예정입니다.