Suivi par spécification par langage naturel

Cet article vise à suivre un objet cible dans une séquence vidéo. Contrairement aux approches classiques qui exigent de spécifier l’objet cible dans la première image de la vidéo à l’aide d’une boîte englobante (bounding box), nous proposons de suivre l’objet à partir d’une description linguistique naturelle de celui-ci. Cette approche permet une interaction homme-machine plus naturelle tout en offrant une voie potentielle pour améliorer les performances du suivi. Nous définissons trois variantes de suivi basé sur une spécification linguistique : une première fondée uniquement sur une description linguistique de l’objet, une seconde reposant sur une spécification visuelle de l’objet dérivée d’une description linguistique, et une troisième exploitant conjointement les deux modalités. Pour illustrer le potentiel du suivi par spécification linguistique naturelle, nous étendons deux jeux de données populaires de suivi vidéo avec des descriptions linguistiques et présentons les résultats d’expériences. Enfin, nous esquissons de nouveaux scénarios de suivi dans des contextes de surveillance et d’analyse de flux vidéo en temps réel, qui deviennent désormais envisageables grâce à une spécification linguistique de l’objet cible.