il y a 8 mois

Résumé

Les agents conversationnels alimentés par des grands modèles de langage (LLMs) offrent une nouvelle façon d'interagir avec les données visuelles. Bien qu'il y ait eu des tentatives initiales pour les modèles conversationnels basés sur des images, cette étude aborde le domaine sous-exploité de la \emph{conversation basée sur la vidéo} en introduisant Video-ChatGPT. Il s'agit d'un modèle multimodal qui combine un encodeur visuel adapté à la vidéo avec un grand modèle de langage. Le modèle résultant est capable de comprendre et de générer des conversations détaillées sur les vidéos. Nous présentons un nouveau jeu de données composé de 100 000 paires vidéo-instructions utilisé pour entraîner Video-ChatGPT, acquis grâce à un pipeline manuel et semi-automatisé facilement extensible et robuste aux erreurs d'étiquetage. Nous développons également un cadre d'évaluation quantitative pour les modèles de dialogue basés sur la vidéo afin d'analyser objectivement leurs forces et faiblesses. Code : https://github.com/mbzuai-oryx/Video-ChatGPT.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Vision Par Ordinateur

Tâche

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Vision Par Ordinateur

Tâche

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage | Articles | HyperAI

Command Palette

Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters