HyperAIHyperAI

Command Palette

Search for a command to run...

CinePile : Un jeu de données et un benchmark pour la réponse à des questions sur des vidéos longues

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein

Résumé

Les jeux de données actuels pour la compréhension des vidéos longues ne parviennent souvent pas à fournir de véritables défis de compréhension à long terme, car de nombreuses tâches dérivées de ces jeux peuvent être réalisées avec succès en analysant simplement une ou quelques images aléatoires d'une vidéo. Pour remédier à ce problème, nous présentons un nouveau jeu de données et un benchmark, CinePile, spécifiquement conçu pour la compréhension authentique des vidéos longues. Ce document détaille notre approche innovante pour créer un jeu de questions-réponses, en utilisant des modèles linguistiques avancés (LLMs) avec l'intervention humaine et en s'appuyant sur des données brutes générées par des humains. Notre jeu de données complet comprend 305 000 questions à choix multiples (MCQs), couvrant divers aspects visuels et multimodaux, notamment la compréhension temporelle, la compréhension des interactions homme-objet et le raisonnement sur les événements ou les actions au sein d'une scène. De plus, nous avons affiné des modèles linguistiques vidéo open source sur la partition d'entraînement et évalué à la fois des modèles vidéo open source et propriétaires sur la partition de test de notre jeu de données. Les résultats montrent que bien que les modèles actuels sous-performent par rapport aux humains, l'affinage de ces modèles peut entraîner des améliorations significatives de leurs performances.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CinePile : Un jeu de données et un benchmark pour la réponse à des questions sur des vidéos longues | Articles | HyperAI