2달 전

효율적인 RGB-T 추적을 위한 통합 단일 스테이지 트랜스포머 네트워크

Jianqiang Xia; DianXi Shi; Ke Song; Linna Song; XiaoLei Wang; Songchang Jin; Li Zhou; Yu Cheng; Lei Jin; Zheng Zhu; Jianan Li; Gang Wang; Junliang Xing; Jian Zhao
효율적인 RGB-T 추적을 위한 통합 단일 스테이지 트랜스포머 네트워크
초록

대부분의 기존 RGB-T 추적 네트워크는 각 모달리티의 특징을 별도로 추출하여, 이들 사이의 상호작용과 상호 지도가 부족합니다. 이는 네트워크가 대상의 다양한 이중 모달리티 표현과 모달리티 간의 동적인 관계에 적응하는 능력을 제한합니다. 또한, 이러한 네트워크들이 따르는 세 단계 융합 추적 패러다임은 추적 속도를 크게 제약합니다. 이러한 문제들을 해결하기 위해, 우리는 USTrack(Unified Single-Stage Transformer RGB-T Tracking Network)라는 이름으로 통합된 단일 단계 트랜스포머 RGB-T 추적 네트워크를 제안합니다. 이 네트워크는 자기 주의 메커니즘을 통해 템플릿과 탐색 영역의 융합 특징을 모달리티 간 상호작용 하에서 추출할 수 있도록 위의 세 단계를 단일 ViT(Vision Transformer) 백본에 듀얼 임베딩 레이어를 통해 통합합니다. 이 구조를 통해, 네트워크는 템플릿과 탐색 영역 사이에서 융합 특징을 추출하고, 이를 통해 더 우수한 대상-배경 구별성을 가진 탐색 영역 융합 특징을 효율적으로 얻어 예측을 수행할 수 있습니다. 또한, 우리는 무효한 모달리티가 예측에 미치는 영향을 완화하기 위해 모달리티 신뢰성 기반의 새로운 특징 선택 메커니즘을 도입하여 추적 성능을 더욱 개선하였습니다. 세 가지 인기 있는 RGB-T 추적 벤치마크에서 수행된 광범위한 실험 결과, 우리의 방법론은 최고의 추론 속도인 84.2FPS를 유지하면서 새로운 최고 수준의 성능을 달성함을 보여주었습니다. 특히, VTUAV 데이터셋의 단기 및 장기 부분 집합에서 MPR(Mean Precision Rate)/MSR(Mean Success Rate)가 각각 11.1%/11.7%와 11.3%/9.7% 증가하였습니다.

효율적인 RGB-T 추적을 위한 통합 단일 스테이지 트랜스포머 네트워크 | 최신 연구 논문 | HyperAI초신경