il y a 8 mois

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein

Résumé

Les jeux de données actuels pour la compréhension des vidéos longues ne parviennent souvent pas à fournir de véritables défis de compréhension à long terme, car de nombreuses tâches dérivées de ces jeux peuvent être réalisées avec succès en analysant simplement une ou quelques images aléatoires d'une vidéo. Pour remédier à ce problème, nous présentons un nouveau jeu de données et un benchmark, CinePile, spécifiquement conçu pour la compréhension authentique des vidéos longues. Ce document détaille notre approche innovante pour créer un jeu de questions-réponses, en utilisant des modèles linguistiques avancés (LLMs) avec l'intervention humaine et en s'appuyant sur des données brutes générées par des humains. Notre jeu de données complet comprend 305 000 questions à choix multiples (MCQs), couvrant divers aspects visuels et multimodaux, notamment la compréhension temporelle, la compréhension des interactions homme-objet et le raisonnement sur les événements ou les actions au sein d'une scène. De plus, nous avons affiné des modèles linguistiques vidéo open source sur la partition d'entraînement et évalué à la fois des modèles vidéo open source et propriétaires sur la partition de test de notre jeu de données. Les résultats montrent que bien que les modèles actuels sous-performent par rapport aux humains, l'affinage de ces modèles peut entraîner des améliorations significatives de leurs performances.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

CinePile : Un jeu de données et un benchmark pour la réponse à des questions sur des vidéos longues

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CinePile : Un jeu de données et un benchmark pour la réponse à des questions sur des vidéos longues

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CinePile : Un jeu de données et un benchmark pour la réponse à des questions sur des vidéos longues

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters