Résumé Concis : une Méthode de Résumé puis de Recherche pour la Réponse aux Questions sur les Vidéos Longues

Les grands modèles de langage tels que GPT-3 ont démontré une capacité impressionnante à s'adapter à de nouvelles tâches sans nécessiter de données d'entraînement spécifiques à la tâche. Cette capacité s'est avérée particulièrement efficace dans des contextes comme le questionnement narratif, où la diversité des tâches est considérable, mais les données de supervision disponibles sont limitées. Dans cette étude, nous examinons si ces modèles de langage peuvent étendre leurs capacités de raisonnement zéro-shot (zero-shot) aux longues narrations multimodales présentes dans des contenus multimédias tels que les drames, les films et les animations, où l'histoire joue un rôle essentiel. Nous proposons Long Story Short, un cadre pour le questionnement narratif sur vidéo qui résume d'abord le récit du vidéo en un court synopsis avant de rechercher les parties pertinentes du vidéo liées à la question. Nous suggérons également d'améliorer l'appariement visuel avec CLIPCheck. Notre modèle dépasse largement les modèles supervisés de pointe actuels, soulignant le potentiel du questionnement zéro-shot pour les vidéos longues.