HyperAIHyperAI

Command Palette

Search for a command to run...

Génération de texte fondée sur la vidéo à paramètres semi-paramétriques

Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo

Résumé

Un modèle vidéo-langage efficace doit prendre en compte le coût computationnel, en raison du grand nombre de trames vidéo, parfois intractable. Les approches paramétriques telles que le mécanisme d’attention ne sont pas idéales, car leur coût computationnel augmente quadratiquement avec la longueur de la vidéo. À la place, les études antérieures se sont appuyées sur une extraction hors ligne de caractéristiques ou un échantillonnage de trames afin de représenter efficacement la vidéo, en se concentrant principalement sur la modélisation intermodale sur de courtes séquences vidéo. Dans cet article, nous proposons un modèle semi-paramétrique de génération de texte fondé sur la vidéo, nommé SeViT, offrant une nouvelle perspective pour une modélisation vidéo-langage évolutive, adaptée aux vidéos longues et non tronquées. En traitant la vidéo comme un dépôt externe de données, SeViT intègre un module de récupération de trames non paramétrique, qui sélectionne un petit nombre de trames pertinentes pour une requête donnée à partir du dépôt, ainsi qu’un générateur paramétrique qui agrège efficacement ces trames avec la requête via des méthodes de fusion tardive. Les résultats expérimentaux démontrent que notre méthode présente un avantage significatif sur les vidéos longues et dans la compréhension causale des vidéos. En outre, notre modèle atteint un nouveau état de l’art sur quatre jeux de données vidéo-langage : iVQA (+4,8), Next-QA (+6,9), ActivityNet-QA (+4,8) en précision, et MSRVTT-Caption (+3,6) en score CIDEr.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp