HyperAIHyperAI
il y a 9 jours

Génération de texte fondée sur la vidéo à paramètres semi-paramétriques

Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo
Génération de texte fondée sur la vidéo à paramètres semi-paramétriques
Résumé

Un modèle vidéo-langage efficace doit prendre en compte le coût computationnel, en raison du grand nombre de trames vidéo, parfois intractable. Les approches paramétriques telles que le mécanisme d’attention ne sont pas idéales, car leur coût computationnel augmente quadratiquement avec la longueur de la vidéo. À la place, les études antérieures se sont appuyées sur une extraction hors ligne de caractéristiques ou un échantillonnage de trames afin de représenter efficacement la vidéo, en se concentrant principalement sur la modélisation intermodale sur de courtes séquences vidéo. Dans cet article, nous proposons un modèle semi-paramétrique de génération de texte fondé sur la vidéo, nommé SeViT, offrant une nouvelle perspective pour une modélisation vidéo-langage évolutive, adaptée aux vidéos longues et non tronquées. En traitant la vidéo comme un dépôt externe de données, SeViT intègre un module de récupération de trames non paramétrique, qui sélectionne un petit nombre de trames pertinentes pour une requête donnée à partir du dépôt, ainsi qu’un générateur paramétrique qui agrège efficacement ces trames avec la requête via des méthodes de fusion tardive. Les résultats expérimentaux démontrent que notre méthode présente un avantage significatif sur les vidéos longues et dans la compréhension causale des vidéos. En outre, notre modèle atteint un nouveau état de l’art sur quatre jeux de données vidéo-langage : iVQA (+4,8), Next-QA (+6,9), ActivityNet-QA (+4,8) en précision, et MSRVTT-Caption (+3,6) en score CIDEr.