HyperAIHyperAI

Command Palette

Search for a command to run...

Résumé Concis : une Méthode de Résumé puis de Recherche pour la Réponse aux Questions sur les Vidéos Longues

Jiwan Chung Youngjae Yu

Résumé

Les grands modèles de langage tels que GPT-3 ont démontré une capacité impressionnante à s'adapter à de nouvelles tâches sans nécessiter de données d'entraînement spécifiques à la tâche. Cette capacité s'est avérée particulièrement efficace dans des contextes comme le questionnement narratif, où la diversité des tâches est considérable, mais les données de supervision disponibles sont limitées. Dans cette étude, nous examinons si ces modèles de langage peuvent étendre leurs capacités de raisonnement zéro-shot (zero-shot) aux longues narrations multimodales présentes dans des contenus multimédias tels que les drames, les films et les animations, où l'histoire joue un rôle essentiel. Nous proposons Long Story Short, un cadre pour le questionnement narratif sur vidéo qui résume d'abord le récit du vidéo en un court synopsis avant de rechercher les parties pertinentes du vidéo liées à la question. Nous suggérons également d'améliorer l'appariement visuel avec CLIPCheck. Notre modèle dépasse largement les modèles supervisés de pointe actuels, soulignant le potentiel du questionnement zéro-shot pour les vidéos longues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp