Inférence visuelle conjointe et suivi avec spécification par langage naturel

Le suivi par spécification linguistique vise à localiser la cible mentionnée dans une séquence vidéo à partir d'une description linguistique naturelle. Les algorithmes existants résolvent ce problème en deux étapes : l’alignement visuel (visual grounding) et le suivi (tracking), en déployant respectivement un modèle d’alignement visuel et un modèle de suivi. Ce cadre déconnecté néglige toutefois le lien entre l’alignement visuel et le suivi, à savoir que les descriptions linguistiques fournissent des indices sémantiques globaux utiles à la localisation de la cible dans les deux étapes. De plus, un tel cadre déconnecté ne peut être entraîné de manière end-to-end. Pour surmonter ces limitations, nous proposons un cadre conjoint d’alignement visuel et de suivi, qui reformule ces deux tâches comme une seule tâche unifiée : localiser la cible référencée à partir des références visuelles-langagères fournies. Plus précisément, nous introduisons un module de modélisation des relations multi-sources afin de construire efficacement les relations entre les références visuelles-langagères et l’image de test. En outre, nous concevons un module de modélisation temporelle qui fournit des indices temporels guidés par l’information sémantique globale, améliorant ainsi efficacement la capacité de notre modèle à s’adapter aux variations d’apparence de la cible. Les résultats expérimentaux étendus sur les jeux de données TNL2K, LaSOT, OTB99 et RefCOCOg montrent que notre méthode obtient des performances supérieures par rapport aux algorithmes de pointe pour les deux tâches de suivi et d’alignement visuel. Le code est disponible à l’adresse suivante : https://github.com/lizhou-cs/JointNLT.