HyperAIHyperAI

Command Palette

Search for a command to run...

MiniGPT4-Video : Amélioration des LLMs multimodaux pour la compréhension vidéo grâce aux jetons visuels et textuels entrelacés

Kirolos Ataallah Xiaoqian Shen Eslam Abdelrahman Essam Sleiman Deyao Zhu Jian Ding Mohamed Elhoseiny

Résumé

Ce document présente MiniGPT4-Video, un modèle de langage large multimodal (LLM) conçu spécifiquement pour la compréhension des vidéos. Ce modèle est capable de traiter à la fois des données visuelles et textuelles temporelles, ce qui lui permet d'appréhender les complexités des vidéos. S'appuyant sur le succès de MiniGPT-v2, qui s'est distingué par sa capacité à traduire les caractéristiques visuelles dans l'espace LLM pour les images individuelles et a obtenu des résultats remarquables sur diverses évaluations image-texte, cet article étend les capacités du modèle pour qu'il puisse traiter une séquence d'images, lui permettant ainsi de comprendre les vidéos. MiniGPT4-Video ne se contente pas d'examiner le contenu visuel mais intègre également les conversations textuelles, ce qui permet au modèle de répondre efficacement aux requêtes impliquant à la fois des éléments visuels et textuels. Le modèle proposé surpasse les méthodes existantes de pointe, enregistrant des gains respectifs de 4,22 %, 1,13 %, 20,82 % et 13,1 % sur les benchmarks MSVD, MSRVTT, TGIF et TVQA. Nos modèles et notre code sont disponibles au public ici : https://vision-cair.github.io/MiniGPT4-video/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp