
초록
컴퓨터 비전의 급속한 발전으로 인해 단일 모달(RGB) 객체 추적이 최근 몇 년 동안 큰 진보를 이루었습니다. 그러나 단일 이미징 센서의 한계를 고려할 때, 복합 모달 이미지(RGB, 적외선 등)가 도입되어 복잡한 환경에서 모든 날씨 조건에 대응하는 객체 추적을 위해 이 한계를 보완하고 있습니다. 그러나 개방된 환경에서 주요 모달이 변화함에 따라 충분한 복합 모달 추적 데이터를 확보하기 어려운데다, 대부분의 기존 기술들은 이러한 변화에 따라 다중 모달 보완 정보를 동적으로 추출하지 못하여 만족스러운 추적 성능을 내지 못합니다. 이 문제를 해결하기 위해, 우리는 일반적인 양방향 어댑터를 기반으로 하는 새로운 복합 모달 시각 프롬프트 추적 모델을 제안합니다. 이 모델은 일반적인 양방향 어댑터와 매개변수 공유를 통해 여러 모달별 트랜스포머 인코더 분기를 포함하고 있습니다. 인코더는 동결된 사전 훈련된 기본 모델을 사용하여 각 모달의 특징을 개별적으로 추출합니다. 우리는 하나의 모달에서 다른 모달로 모달별 정보를 전송하는 간단하면서도 효과적인 경량 특징 어댑터를 개발하여, 적응적인 방식으로 시각 특징 프롬프트 융합을 수행합니다. 추가로 학습 가능한 매개변수가 적게(0.32M) 필요함에도 불구하고, 우리의 모델은 전체 미세 조정 방법과 프롬프트 학습 기반 방법 모두와 비교하여 우수한 추적 성능을 달성하였습니다. 우리의 코드는 다음과 같이 제공됩니다: https://github.com/SparkTempest/BAT.