HyperAI

Temporal Sentence Grounding

Le Temporal Sentence Grounding (TSG) est une sous-tâche dans le domaine de la vision par ordinateur qui vise à localiser des moments spécifiques dans des vidéos non coupées à partir de requêtes en langage naturel. Cette tâche utilise des informations de supervision à différents niveaux, y compris la supervision faible (un ensemble de catégories d'actions au niveau de la vidéo), la supervision semi-faible (un ensemble de catégories d'actions au niveau de la vidéo et quelques annotations d'actions horodatées), et la supervision complète (toutes les catégories d'actions et les intervalles de temps annotés dans la vidéo non coupée), pour améliorer la précision de la localisation et les capacités de généralisation. Le TSG présente une valeur d'application significative pour la recherche vidéo, la compréhension du contenu et l'interaction homme-machine.