HyperAIHyperAI

Command Palette

Search for a command to run...

Posez simplement : Apprendre à répondre aux questions à partir de millions de vidéos narrées

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

Résumé

Les méthodes récentes en réponse aux questions visuelles s'appuient sur des jeux de données annotés à grande échelle. Toutefois, l'annotation manuelle des questions et réponses pour des vidéos est fastidieuse, coûteuse et limite la scalabilité. Dans ce travail, nous proposons d'éviter l'annotation manuelle et de générer un grand jeu de données d'entraînement pour la réponse aux questions vidéo en exploitant une supervision croisée automatique. Nous utilisons un transformateur de génération de questions entraîné sur des données textuelles pour produire des paires question-réponse à partir de narrations transcrits de vidéos. À partir de vidéos narrées, nous générons automatiquement le jeu de données HowToVQA69M, comprenant 69 millions de triplets vidéo-question-réponse. Pour gérer le vocabulaire ouvert des réponses diversifiées dans ce jeu de données, nous proposons une procédure d'entraînement basée sur une perte contrastive entre un transformateur multimodal vidéo-question et un transformateur de réponse. Nous introduisons la tâche de réponse aux questions vidéo en zéro-shot et montrons des résultats excellents, en particulier pour les réponses rares. En outre, nous démontrons que notre méthode surpasse significativement l'état de l'art sur les jeux de données MSRVTT-QA, MSVD-QA, ActivityNet-QA et How2QA. Enfin, pour une évaluation détaillée, nous introduisons iVQA, un nouveau jeu de données de réponse aux questions vidéo, caractérisé par une réduction des biais linguistiques et des annotations manuelles redondantes de haute qualité. Notre code, nos jeux de données et nos modèles entraînés sont disponibles à l'adresse suivante : https://antoyang.github.io/just-ask.html.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp