HyperAI

Video Narration Captioning

La légendage de narration vidéo est une sous-tâche dans le domaine de la vision par ordinateur qui vise à prédire les légendes narratives pour chaque séquence d'une vidéo multicoups. Cette tâche introduit le texte issu de la reconnaissance automatique de la parole (ASR) comme entrée supplémentaire, en utilisant la même architecture de modèle que pour le légendage de vidéos monocoup, mais avec l'objectif de prédire les légendes narratives. Les légendes narratives ne fournissent pas seulement des connaissances de fond, mais reflètent également la perspective du commentateur, offrant ainsi une valeur significative pour la compréhension du contenu vidéo.