Command Palette
Search for a command to run...
MiniGPT4-Video : Amélioration des LLMs multimodaux pour la compréhension vidéo grâce aux jetons visuels et textuels entrelacés
MiniGPT4-Video : Amélioration des LLMs multimodaux pour la compréhension vidéo grâce aux jetons visuels et textuels entrelacés
Kirolos Ataallah Xiaoqian Shen Eslam Abdelrahman Essam Sleiman Deyao Zhu Jian Ding Mohamed Elhoseiny
Résumé
Ce document présente MiniGPT4-Video, un modèle de langage large multimodal (LLM) conçu spécifiquement pour la compréhension des vidéos. Ce modèle est capable de traiter à la fois des données visuelles et textuelles temporelles, ce qui lui permet d'appréhender les complexités des vidéos. S'appuyant sur le succès de MiniGPT-v2, qui s'est distingué par sa capacité à traduire les caractéristiques visuelles dans l'espace LLM pour les images individuelles et a obtenu des résultats remarquables sur diverses évaluations image-texte, cet article étend les capacités du modèle pour qu'il puisse traiter une séquence d'images, lui permettant ainsi de comprendre les vidéos. MiniGPT4-Video ne se contente pas d'examiner le contenu visuel mais intègre également les conversations textuelles, ce qui permet au modèle de répondre efficacement aux requêtes impliquant à la fois des éléments visuels et textuels. Le modèle proposé surpasse les méthodes existantes de pointe, enregistrant des gains respectifs de 4,22 %, 1,13 %, 20,82 % et 13,1 % sur les benchmarks MSVD, MSRVTT, TGIF et TVQA. Nos modèles et notre code sont disponibles au public ici : https://vision-cair.github.io/MiniGPT4-video/