HyperAIHyperAI
il y a 7 jours

Réponse à des questions vidéo en zero-shot à l’aide de modèles linguistiques bidirectionnels figés

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
Réponse à des questions vidéo en zero-shot à l’aide de modèles linguistiques bidirectionnels figés
Résumé

La réponse à des questions vidéo (VideoQA) est une tâche complexe qui nécessite des données multimodales diversifiées pour l'entraînement. Toutefois, l'annotation manuelle des questions et des réponses associées aux vidéos est fastidieuse et limite la scalabilité. Pour relever ce défi, les méthodes récentes s'orientent vers des cadres à zéro apprentissage (zero-shot), où aucune annotation manuelle de paires question-réponse visuelles n'est requise. En particulier, une approche prometteuse adapte des modèles linguistiques autoregressifs gelés, préentraînés sur de grandes quantités de données textuelles issues du Web, à des entrées multimodales. À l’inverse, nous proposons ici d’exploiter des modèles linguistiques bidirectionnels gelés (BiLM), et montrons que cette approche constitue une alternative plus puissante et moins coûteuse pour la VideoQA à zéro apprentissage. Plus précisément, (i) nous combinons les entrées visuelles avec le BiLM gelé à l’aide de modules entraînables légers, (ii) nous entraînons ces modules à l’aide de données multimodales extraites automatiquement depuis le Web, et (iii) nous réalisons l’inférence en VideoQA à zéro apprentissage via le modèle de langage masqué, où le texte masqué correspond à la réponse attendue pour une question donnée. Notre approche, nommée FrozenBiLM, dépasse de manière significative l’état de l’art en VideoQA à zéro apprentissage sur divers jeux de données, notamment LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA et TVQA. Elle montre également des performances compétitives dans les scénarios à peu d’exemples (few-shot) et entièrement supervisés. Le code et les modèles sont disponibles publiquement à l’adresse suivante : https://github.com/antoyang/FrozenBiLM.

Réponse à des questions vidéo en zero-shot à l’aide de modèles linguistiques bidirectionnels figés | Articles de recherche récents | HyperAI