HyperAIHyperAI

Command Palette

Search for a command to run...

Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

Résumé

Les agents conversationnels alimentés par des grands modèles de langage (LLMs) offrent une nouvelle façon d'interagir avec les données visuelles. Bien qu'il y ait eu des tentatives initiales pour les modèles conversationnels basés sur des images, cette étude aborde le domaine sous-exploité de la \emph{conversation basée sur la vidéo} en introduisant Video-ChatGPT. Il s'agit d'un modèle multimodal qui combine un encodeur visuel adapté à la vidéo avec un grand modèle de langage. Le modèle résultant est capable de comprendre et de générer des conversations détaillées sur les vidéos. Nous présentons un nouveau jeu de données composé de 100 000 paires vidéo-instructions utilisé pour entraîner Video-ChatGPT, acquis grâce à un pipeline manuel et semi-automatisé facilement extensible et robuste aux erreurs d'étiquetage. Nous développons également un cadre d'évaluation quantitative pour les modèles de dialogue basés sur la vidéo afin d'analyser objectivement leurs forces et faiblesses. Code : https://github.com/mbzuai-oryx/Video-ChatGPT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage | Articles | HyperAI