il y a 2 mois

MiniGPT4-Video : Amélioration des LLMs multimodaux pour la compréhension vidéo grâce aux jetons visuels et textuels entrelacés

Kirolos Ataallah; Xiaoqian Shen; Eslam Abdelrahman; Essam Sleiman; Deyao Zhu; Jian Ding; Mohamed Elhoseiny

Résumé

Ce document présente MiniGPT4-Video, un modèle de langage large multimodal (LLM) conçu spécifiquement pour la compréhension des vidéos. Ce modèle est capable de traiter à la fois des données visuelles et textuelles temporelles, ce qui lui permet d'appréhender les complexités des vidéos. S'appuyant sur le succès de MiniGPT-v2, qui s'est distingué par sa capacité à traduire les caractéristiques visuelles dans l'espace LLM pour les images individuelles et a obtenu des résultats remarquables sur diverses évaluations image-texte, cet article étend les capacités du modèle pour qu'il puisse traiter une séquence d'images, lui permettant ainsi de comprendre les vidéos. MiniGPT4-Video ne se contente pas d'examiner le contenu visuel mais intègre également les conversations textuelles, ce qui permet au modèle de répondre efficacement aux requêtes impliquant à la fois des éléments visuels et textuels. Le modèle proposé surpasse les méthodes existantes de pointe, enregistrant des gains respectifs de 4,22 %, 1,13 %, 20,82 % et 13,1 % sur les benchmarks MSVD, MSRVTT, TGIF et TVQA. Nos modèles et notre code sont disponibles au public ici : https://vision-cair.github.io/MiniGPT4-video/