HyperAI

Ensemble De Données De Questions-réponses Sur La Compréhension De Vidéos Longues CinePile

特色图像

Les ensembles de données actuels pour la compréhension des vidéos longues ne parviennent souvent pas à fournir un véritable défi de compréhension longue durée, car de nombreuses tâches dérivées de ces ensembles de données peuvent être résolues avec succès en analysant une ou quelques images aléatoires dans une vidéo. Pour résoudre ce problème,L'équipe de recherche a proposé un nouvel ensemble de données et une nouvelle référence, CinePile, conçus pour la compréhension de vidéos longues durées dans le monde réel.

L’équipe de recherche a utilisé un LLM avancé et une interaction homme-machine et s’est appuyée sur des données originales générées par l’homme. L'ensemble de données complet contient 305 000 questions à choix multiples (QCM) couvrant divers aspects visuels et multimodaux, notamment la compréhension temporelle, la compréhension des interactions homme-objet et le raisonnement sur des événements ou des actions au sein d'une scène. De plus, les LLM récents centrés sur la vidéo, à la fois open source et propriétaires, sont évalués sur la partie test de l'ensemble de données. Nos résultats montrent que même les LLM centrés sur la vidéo à la pointe de la technologie obtiennent des résultats nettement inférieurs à ceux des humains dans ces tâches, soulignant la complexité et les défis inhérents à la compréhension de la vidéo.

CinePile.torrent
Partage 1Téléchargement 1Terminés 50Téléchargements totaux 75
  • CinePile/
    • README.md
      1.71 KB
    • README.txt
      3.42 KB
      • data/
        • cinepile.zip
          88.04 MB