Unification du suivi visuel et du suivi vision-langage par apprentissage contrastif

Le suivi d'objet unique vise à localiser un objet cible dans une séquence vidéo en se basant sur un état spécifié par différentes références modales, notamment une boîte englobante initiale (BBOX), un langage naturel (NL), ou les deux simultanément (NL+BBOX). En raison de l'écart entre ces différentes modalités, la plupart des traqueurs existants sont conçus pour une seule ou une partie seulement de ces configurations de référence, ce qui entraîne une sur-spécialisation vis-à-vis d'une modalité spécifique. À l'inverse, nous proposons un traqueur unifié appelé UVLTrack, capable de traiter simultanément les trois configurations de référence (BBOX, NL, NL+BBOX) avec les mêmes paramètres. Le modèle UVLTrack présente plusieurs avantages. Premièrement, nous avons conçu un extracteur de caractéristiques unifié par rapport aux modalités, permettant un apprentissage conjoint des caractéristiques visuelles et linguistiques, et introduit une perte contrastive multi-modale afin d'aligner les caractéristiques visuelles et linguistiques dans un espace sémantique commun. Deuxièmement, nous proposons une tête de boîte adaptative aux modalités, qui exploite pleinement la référence cible pour extraire dynamiquement, à partir du contexte vidéo, des caractéristiques évoluant en temps réel et pour distinguer le but de manière contrastive, garantissant ainsi une performance robuste dans différentes configurations de référence. Des résultats expérimentaux étendus démontrent que UVLTrack atteint des performances prometteuses sur sept jeux de données de suivi visuel, trois jeux de données de suivi vision-langage et trois jeux de données de localisation visuelle. Les codes et modèles seront rendus disponibles sur GitHub à l'adresse suivante : https://github.com/OpenSpaceAI/UVLTrack.