Command Palette
Search for a command to run...
MMDU : Une base de benchmark pour la compréhension des dialogues à plusieurs tours et à plusieurs images, et un jeu de données pour l'ajustage par instruction des LVLM

Résumé
Générer des réponses naturelles et significatives afin de communiquer avec des entrées humaines multimodales constitue une capacité fondamentale des grands modèles vision-langage (LVLM). Bien que les LVLM open source actuels montrent des performances prometteuses dans des scénarios simplifiés, tels que l’entrée d’une seule image en une seule itération, ils se révèlent insuffisants dans des scénarios de conversation réels, notamment lorsqu’il s’agit de suivre des instructions dans un contexte long, avec des échanges multi-tours et des images multiples. Les évaluations existantes de LVLM se concentrent principalement sur des questions à choix multiples ou des réponses courtes, ce qui ne permet pas d’apprécier adéquatement les capacités des LVLM dans des applications concrètes d’interaction humain-IA. Ainsi, nous introduisons MMDU, un benchmark complet, ainsi que MMDU-45k, un grand ensemble de données d’ajustage par instruction, conçus pour évaluer et améliorer les capacités des LVLM dans les dialogues multi-tours et multi-images. Nous utilisons un algorithme de regroupement (clustering) pour identifier les images pertinentes et les descriptions textuelles issues de l’encyclopédie open source Wikipedia, puis nous construisons des paires question-réponse avec l’aide d’annotateurs humains et du modèle GPT-4o. MMDU comporte jusqu’à 18 000 tokens image+texte, 20 images et 27 tours, ce qui représente au moins 5 fois plus de longueur que les benchmarks précédents, posant ainsi de réels défis aux LVLM actuels. Une analyse approfondie de 15 LVLM représentatifs effectuée à l’aide de MMDU révèle que les LVLM open source sont en retard par rapport à leurs homologues propriétaires, en raison d’un manque de données d’ajustage par instruction pour la conversation. Nous démontrons qu’un ajustage fin (fine-tuning) des LVLM open source sur MMDU-45k comble significativement ce fossé, en produisant des dialogues plus longs et plus précis, et en améliorant les scores sur MMDU et sur les benchmarks existants (MMStar : +1,1 %, MathVista : +1,5 %, ChartQA : +1,2 %). Nos contributions ouvrent la voie à la réduction de l’écart entre les modèles LVLM actuels et les exigences des applications réelles. Ce projet est disponible à l’adresse suivante : https://github.com/Liuziyu77/MMDU.
Dépôts de code
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| visual-question-answering-on-mm-vet | InternLM-XC2 + MMDU-45k | GPT-4 score: 38.8 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.