Transformer RGBT 추적을 위한 시공간 다중모달 토큰

많은 RGBT 추적 연구들은 모달 융합 설계에 주로 초점을 맞추고 있지만, 대상의 외관 변화를 효과적으로 처리하는 데는 관심을 덜 기울이고 있습니다. 일부 접근 방식에서는 시간 정보를 통합하기 위해 역사적 프레임을 도입하거나 초기 템플릿을 융합하고 교체하는 방법을 제안하였지만, 이들 방법은 원래 대상의 외관을 방해하고 시간이 지남에 따라 오류가 누적될 위험이 있습니다. 이러한 한계를 완화하기 위해, 우리는 정적인 다중 모달 템플릿과 다중 모달 검색 영역에서 스페이스-타임 다중 모달 토큰을 혼합하여 대상의 외관 변화를 처리하는 새로운 트랜스포머 RGBT 추적 접근법을 제안합니다. 이 접근법은 검색 영역과 상호작용하며 시간 정보를 내재화하여 외관 변화를 해결하는 독립적인 동적 템플릿 토큰을 도입하면서도, 초기 정적 템플릿 토큰이 공동 특성 추출 과정에 참여하도록 하여 원래 신뢰할 수 있는 대상 외관 정보가 전통적인 시간 업데이트로 인해 벗어나지 않도록 합니다. 또한 우리는 보조 모달 신호를 통합하여 다중 모달 템플릿 토큰의 대상 특성을 강화하는 주의 메커니즘(attention mechanisms)을 사용하며, 다중 모달 검색 영역 토큰이 주의 메커니즘을 통해 다중 모달 동적 템플릿 토큰과 상호작용하도록 하여 다중 모달 강화된 대상 변화 정보 전달을 용이하게 합니다. 우리의 모듈은 트랜스포머 백본 네트워크에 삽입되어 공동 특성 추출, 검색-템플릿 매칭, 그리고 크로스-모달 상호작용을 계승합니다. 세 가지 RGBT 벤치마크 데이터셋에서 수행한 광범위한 실험 결과, 제안된 접근법은 다른 최신 추적 알고리즘들과 비교하여 경쟁력 있는 성능을 유지하면서 39.1 FPS로 실행됨을 보여주었습니다.