Suivi de drones UAV visible-thermique : une grande base de référence et une nouvelle ligne de base

Avec la popularisation des capteurs multi-modaux, le suivi d'objets visible-thermique (RGB-T) vise à atteindre une performance robuste et à élargir les scénarios d'application grâce aux informations de température des objets. Cependant, le manque d'échantillons d'entraînement appariés est le principal obstacle pour débloquer le potentiel du suivi RGB-T. Étant donné que la collecte de séquences RGB-T de haute qualité est fastidieuse, les récentes bases de référence ne fournissent que des séquences de test. Dans cet article, nous construisons une base de référence à grande échelle avec une grande diversité pour le suivi visible-thermique par drone (VTUAV), comprenant 500 séquences avec 1,7 million de paires d'images haute résolution (1920 $\times$ 1080 pixels). De plus, des applications exhaustives (suivi à court terme, suivi à long terme et prédiction de masques de segmentation) sont considérées pour une évaluation approfondie, couvrant diverses catégories et scènes. Nous fournissons également une annotation d'attributs allant du grossier au fin, où des attributs au niveau des images sont fournis pour exploiter le potentiel des traceurs spécifiques aux défis. En outre, nous concevons un nouveau modèle basé sur RGB-T, appelé Traceur de Fusion Multi-modale Hiérarchique (HMFT), qui fusionne les données RGB-T à différents niveaux. De nombreuses expériences ont été menées sur plusieurs ensembles de données pour démontrer l'efficacité de l'HMFT et la complémentarité des différents types de fusion. Le projet est disponible ici.