16일 전
적응형 인지 기반 통합 시각 다중 모달 객체 추적
Xiantao Hu, Bineng Zhong, Qihua Liang, Zhiyi Mo, Liangtao Shi, Ying Tai, Jian Yang

초록
최근 많은 다중 모달 추적기들은 RGB를 주도적 모달로 삼아 다른 모달은 보조적 역할로 간주하고, 각각의 다중 모달 작업에 대해 별도로 미세조정하는 방식을 취하고 있다. 이러한 모달 간의 비대칭적 의존성은 복잡한 환경에서 각 모달의 보완 정보를 동적으로 활용하는 능력을 제한하며, 다중 모달의 장점을 충분히 인지하는 데 어려움을 초래한다. 그 결과, 통합 파라미터 모델은 다양한 다중 모달 추적 작업에서 성능이 낮게 나타나는 경우가 많다. 이 문제를 해결하기 위해 우리는 다중 모달 적응형 인지에 특화된 새로운 통합 추적기인 APTrack을 제안한다. 기존의 방법과 달리, APTrack은 균등한 모델링 전략을 통해 통합 표현을 탐색한다. 이 전략은 모델이 다양한 모달과 작업에 대해 추가적인 미세조정 없이도 동적으로 적응할 수 있도록 한다. 또한, 본 추적기는 학습 가능한 토큰을 생성함으로써 교차 모달 간의 상호작용을 효율적으로 연결하는 적응형 모달 상호작용(AMI) 모듈을 통합하고 있다. RGBT234, LasHeR, VisEvent, DepthTrack, VOT-RGBD2022 등 다섯 가지 다양한 다중 모달 데이터셋에서 수행된 실험 결과, APTrack은 기존 최첨단의 통합 다중 모달 추적기들을 모두 상회할 뿐만 아니라, 특정 다중 모달 작업에 특화된 추적기들보다도 우수한 성능을 보였다.