HyperAIHyperAI
il y a 2 mois

CinePile : Un jeu de données et un benchmark pour la réponse à des questions sur des vidéos longues

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein
CinePile : Un jeu de données et un benchmark pour la réponse à des questions sur des vidéos longues
Résumé

Les jeux de données actuels pour la compréhension des vidéos longues ne parviennent souvent pas à fournir de véritables défis de compréhension à long terme, car de nombreuses tâches dérivées de ces jeux peuvent être réalisées avec succès en analysant simplement une ou quelques images aléatoires d'une vidéo. Pour remédier à ce problème, nous présentons un nouveau jeu de données et un benchmark, CinePile, spécifiquement conçu pour la compréhension authentique des vidéos longues. Ce document détaille notre approche innovante pour créer un jeu de questions-réponses, en utilisant des modèles linguistiques avancés (LLMs) avec l'intervention humaine et en s'appuyant sur des données brutes générées par des humains. Notre jeu de données complet comprend 305 000 questions à choix multiples (MCQs), couvrant divers aspects visuels et multimodaux, notamment la compréhension temporelle, la compréhension des interactions homme-objet et le raisonnement sur les événements ou les actions au sein d'une scène. De plus, nous avons affiné des modèles linguistiques vidéo open source sur la partition d'entraînement et évalué à la fois des modèles vidéo open source et propriétaires sur la partition de test de notre jeu de données. Les résultats montrent que bien que les modèles actuels sous-performent par rapport aux humains, l'affinage de ces modèles peut entraîner des améliorations significatives de leurs performances.

CinePile : Un jeu de données et un benchmark pour la réponse à des questions sur des vidéos longues | Articles de recherche récents | HyperAI