HyperAIHyperAI
il y a 2 mois

Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage

Muhammad Maaz; Hanoona Rasheed; Salman Khan; Fahad Shahbaz Khan
Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage
Résumé

Les agents conversationnels alimentés par des grands modèles de langage (LLMs) offrent une nouvelle façon d'interagir avec les données visuelles. Bien qu'il y ait eu des tentatives initiales pour les modèles conversationnels basés sur des images, cette étude aborde le domaine sous-exploité de la \emph{conversation basée sur la vidéo} en introduisant Video-ChatGPT. Il s'agit d'un modèle multimodal qui combine un encodeur visuel adapté à la vidéo avec un grand modèle de langage. Le modèle résultant est capable de comprendre et de générer des conversations détaillées sur les vidéos. Nous présentons un nouveau jeu de données composé de 100 000 paires vidéo-instructions utilisé pour entraîner Video-ChatGPT, acquis grâce à un pipeline manuel et semi-automatisé facilement extensible et robuste aux erreurs d'étiquetage. Nous développons également un cadre d'évaluation quantitative pour les modèles de dialogue basés sur la vidéo afin d'analyser objectivement leurs forces et faiblesses. Code : https://github.com/mbzuai-oryx/Video-ChatGPT.

Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage | Articles de recherche récents | HyperAI