Sollicitation pour le suivi multi-modal

Le suivi multi-modale attire de plus en plus l'attention grâce à sa capacité à être plus précis et robuste dans des scénarios complexes par rapport au suivi traditionnel basé sur RGB. L'essentiel réside dans la manière de fusionner les données multi-modales et de réduire l'écart entre les modalités. Cependant, le suivi multi-modale souffre toujours gravement d'une pénurie de données, ce qui entraîne un apprentissage insuffisant des modules de fusion. Au lieu de construire un tel module de fusion, dans cet article, nous proposons une nouvelle perspective sur le suivi multi-modale en mettant l'accent sur les invites visuelles multi-modales. Nous concevons un nouveau tracker d'invites multi-modales (ProTrack), capable de transformer les entrées multi-modales en une seule modalité grâce au paradigme des invites. En exploitant au mieux la capacité de suivi des trackers pré-entraînés RGB appris à grande échelle, notre ProTrack peut atteindre un suivi multi-modale haute performance simplement en modifiant les entrées, sans nécessiter d'entraînement supplémentaire sur des données multi-modales. De nombreuses expériences menées sur 5 jeux de données de référence démontrent l'efficacité du ProTrack proposé.