Command Palette
Search for a command to run...
MMDU: Ein Mehrrunden-Mehrbilder-Dialogverstehens-Benchmark und Anweisungsoptimierungsdatensatz für LVLMs

Abstract
Die Generierung natürlicher und sinnvoller Antworten zur Kommunikation mit multimodalen menschlichen Eingaben ist eine grundlegende Fähigkeit großer visuellsprachlicher Modelle (LVLMs). Obwohl aktuelle Open-Source-LVLMs in vereinfachten Szenarien wie Single-Turn-Single-Image-Eingaben vielversprechende Leistungen zeigen, sind sie in realen Konversationskontexten, wie dem Folgen von Anweisungen in einem langen Kontextverlauf mit mehreren Durchgängen und Bildern, weniger erfolgreich. Bestehende Benchmarks für LVLMs konzentrieren sich hauptsächlich auf Multiple-Choice-Fragen oder kurze Antworten, was die Fähigkeiten der LVLMs in realen Mensch-KI-Interaktionsanwendungen nicht ausreichend bewertet. Deshalb stellen wir MMDU vor, ein umfassendes Benchmarking-Tool, sowie MMDU-45k, einen groß angelegten Datensatz zur Anweisungsfine-tuning, die beide entwickelt wurden, um die Leistungsfähigkeit von LVLMs bei multimodalen Konversationen mit mehreren Durchgängen und Bildern zu evaluieren und zu verbessern. Wir verwenden einen Clusteralgorithmus, um relevante Bilder und textuelle Beschreibungen aus der Open-Source-Wikipedia zu finden und erstellen Frage-Antwort-Paare mit Hilfe menschlicher Annotatoren und des Modells GPT-4o. MMDU verfügt über maximal 18.000 Bild+Text-Token, 20 Bilder und 27 Durchgänge, was mindestens fünfmal länger als bisherige Benchmarks ist und aktuelle LVLMs erhebliche Herausforderungen bietet. Unsere detaillierte Analyse von 15 repräsentativen LVLMs unter Verwendung von MMDU zeigt, dass Open-Source-LVLMs wegen begrenzter Anweisungsfeinabstimmungsdaten hinter geschlossenen Quellcodes zurückbleiben. Wir demonstrieren, dass das Fine-Tuning von Open-Source-LVLMs anhand des Datensatzes MMDU-45k diesen Abstand erheblich verringert: Es führt zu längeren und genauer formulierten Konversationen sowie zu besseren Ergebnissen sowohl im MMDU-Benchmark als auch in bestehenden Benchmarks (MMStar: +1,1%, MathVista: +1,5%, ChartQA: +1,2%). Unsere Beiträge bahnen den Weg zur Überbrückung der Lücke zwischen aktuellen LVLM-Modellen und den Anforderungen realer Anwendungen. Dieses Projekt ist unter https://github.com/Liuziyu77/MMDU verfügbar.
Code-Repositories
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| visual-question-answering-on-mm-vet | InternLM-XC2 + MMDU-45k | GPT-4 score: 38.8 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.