Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage

Les agents conversationnels alimentés par des grands modèles de langage (LLMs) offrent une nouvelle façon d'interagir avec les données visuelles. Bien qu'il y ait eu des tentatives initiales pour les modèles conversationnels basés sur des images, cette étude aborde le domaine sous-exploité de la \emph{conversation basée sur la vidéo} en introduisant Video-ChatGPT. Il s'agit d'un modèle multimodal qui combine un encodeur visuel adapté à la vidéo avec un grand modèle de langage. Le modèle résultant est capable de comprendre et de générer des conversations détaillées sur les vidéos. Nous présentons un nouveau jeu de données composé de 100 000 paires vidéo-instructions utilisé pour entraîner Video-ChatGPT, acquis grâce à un pipeline manuel et semi-automatisé facilement extensible et robuste aux erreurs d'étiquetage. Nous développons également un cadre d'évaluation quantitative pour les modèles de dialogue basés sur la vidéo afin d'analyser objectivement leurs forces et faiblesses. Code : https://github.com/mbzuai-oryx/Video-ChatGPT.