Vers un suivi d'objets plus flexible et précis grâce au langage naturel : algorithmes et benchmark

Le suivi par spécification linguistique est un domaine de recherche émergent dont l’objectif est de localiser un objet cible dans une séquence vidéo à partir d’une description linguistique. Contrairement au suivi traditionnel basé sur les boîtes englobantes (BBox), ce cadre utilise des informations sémantiques de haut niveau pour guider le suivi, résout l’ambiguïté inhérente aux BBox et relie de manière organique la recherche locale et globale. Ces avantages peuvent conduire à des performances de suivi plus flexibles, robustes et précises dans des scénarios réels. Toutefois, les trackers actuels initiaux par langage naturel sont développés et évalués sur des jeux de données benchmarks conçus pour le suivi par BBox, ce qui ne reflète pas pleinement le potentiel réel du suivi par langage. Dans ce travail, nous proposons un nouveau benchmark spécifiquement dédié au suivi par langage, comprenant un jeu de données de grande taille et des méthodes de base fortes et diversifiées. Plus précisément, nous avons collecté 2 000 séquences vidéo (totalisant 1 244 340 images et 663 mots) et les avons divisées en 1 300 pour l’entraînement et 700 pour le test. Chaque vidéo est annotée de manière dense avec une phrase en anglais et les boîtes englobantes correspondantes de l’objet cible. Nous introduisons également deux nouveaux défis dans TNL2K pour la tâche de suivi d’objets : les échantillons adverses et le changement de modalité. Une méthode de base puissante, fondée sur un schéma adaptatif de recherche locale et globale, est proposée afin de servir de référence pour les travaux futurs. Nous estimons que ce benchmark stimulera considérablement les recherches futures sur le suivi guidé par le langage naturel.