Spatio Temporal Video Grounding
L'ancrage spatio-temporel dans les vidéos est une tâche qui combine la vision par ordinateur et le traitement du langage naturel, visant à associer des descriptions textuelles à des régions ou moments spécifiques dans une vidéo. Cette tâche consiste à déterminer quelles parties de la vidéo correspondent à la requête ou à la description textuelle donnée. Elle est d'une grande importance pour des applications telles que la synthèse vidéo, la recherche de contenu vidéo basée sur le texte et la génération de légendes vidéo.