2달 전
다중 모드 융합을 이용한 단계별 RGB-T 추적
Lichao Zhang; Martin Danelljan; Abel Gonzalez-Garcia; Joost van de Weijer; Fahad Shahbaz Khan

초록
RGB-T 추적을 위해 RGB와 TIR(열적외선) 모달리티를 융합하는 엔드투엔드 추적 프레임워크를 제안합니다. 우리의 기준 추적기는 DiMP (Discriminative Model Prediction)로, 차별화된 손실 함수를 사용하여 엔드투엔드 방식으로 정교하게 설계된 대상 예측 네트워크를 활용합니다. DiMP의 주요 구성 요소인 특징 추출기, 대상 추정 네트워크 및 분류기에 대한 모달리티 융합의 효과를 분석합니다. 픽셀 수준, 특징 수준 및 응답 수준 등 프레임워크의 다양한 수준에서 작동하는 여러 융합 메커니즘을 고려합니다. 우리의 추적기는 엔드투엔드 방식으로 훈련되어 두 모달리티에서 정보를 어떻게 융합할지 학습할 수 있습니다. 훈련 데이터로는 주석이 달린 RGB 추적 데이터셋(GOT-10k)을 고려하고 이미지-이미지 번역 접근법을 사용하여 짝을 이루는 TIR 이미지를 합성하여 대규모 RGB-T 데이터셋을 생성합니다. VOT-RGBT2019 데이터셋과 RGBT210 데이터셋에서 광범위한 실험을 수행하여 각 모델 구성 요소에 대한 각 모달리티 융합 유형을 평가합니다. 결과는 제안된 융합 메커니즘이 단일 모달리티 대응체보다 성능이 개선됨을 보여줍니다. IoU-Net과 모델 예측기에서 특징 수준에서 융합할 때 최고의 결과를 얻어 VOT-RGBT2019 데이터셋에서 EAO 점수가 0.391을 기록했습니다. 이 융합 메커니즘으로 RGBT210 데이터셋에서 최신 성능을 달성하였습니다.