HyperAIHyperAI

Command Palette

Search for a command to run...

vor 5 Monaten

MMDU: Ein Mehrrunden-Mehrbilder-Dialogverstehens-Benchmark und Anweisungsoptimierungsdatensatz für LVLMs

MMDU: Ein Mehrrunden-Mehrbilder-Dialogverstehens-Benchmark und Anweisungsoptimierungsdatensatz für LVLMs

Abstract

Die Generierung natürlicher und sinnvoller Antworten zur Kommunikation mit multimodalen menschlichen Eingaben ist eine grundlegende Fähigkeit großer visuellsprachlicher Modelle (LVLMs). Obwohl aktuelle Open-Source-LVLMs in vereinfachten Szenarien wie Single-Turn-Single-Image-Eingaben vielversprechende Leistungen zeigen, sind sie in realen Konversationskontexten, wie dem Folgen von Anweisungen in einem langen Kontextverlauf mit mehreren Durchgängen und Bildern, weniger erfolgreich. Bestehende Benchmarks für LVLMs konzentrieren sich hauptsächlich auf Multiple-Choice-Fragen oder kurze Antworten, was die Fähigkeiten der LVLMs in realen Mensch-KI-Interaktionsanwendungen nicht ausreichend bewertet. Deshalb stellen wir MMDU vor, ein umfassendes Benchmarking-Tool, sowie MMDU-45k, einen groß angelegten Datensatz zur Anweisungsfine-tuning, die beide entwickelt wurden, um die Leistungsfähigkeit von LVLMs bei multimodalen Konversationen mit mehreren Durchgängen und Bildern zu evaluieren und zu verbessern. Wir verwenden einen Clusteralgorithmus, um relevante Bilder und textuelle Beschreibungen aus der Open-Source-Wikipedia zu finden und erstellen Frage-Antwort-Paare mit Hilfe menschlicher Annotatoren und des Modells GPT-4o. MMDU verfügt über maximal 18.000 Bild+Text-Token, 20 Bilder und 27 Durchgänge, was mindestens fünfmal länger als bisherige Benchmarks ist und aktuelle LVLMs erhebliche Herausforderungen bietet. Unsere detaillierte Analyse von 15 repräsentativen LVLMs unter Verwendung von MMDU zeigt, dass Open-Source-LVLMs wegen begrenzter Anweisungsfeinabstimmungsdaten hinter geschlossenen Quellcodes zurückbleiben. Wir demonstrieren, dass das Fine-Tuning von Open-Source-LVLMs anhand des Datensatzes MMDU-45k diesen Abstand erheblich verringert: Es führt zu längeren und genauer formulierten Konversationen sowie zu besseren Ergebnissen sowohl im MMDU-Benchmark als auch in bestehenden Benchmarks (MMStar: +1,1%, MathVista: +1,5%, ChartQA: +1,2%). Unsere Beiträge bahnen den Weg zur Überbrückung der Lücke zwischen aktuellen LVLM-Modellen und den Anforderungen realer Anwendungen. Dieses Projekt ist unter https://github.com/Liuziyu77/MMDU verfügbar.

Code-Repositories

liuziyu77/mmdu
Offiziell
pytorch
In GitHub erwähnt

Benchmarks

BenchmarkMethodikMetriken
visual-question-answering-on-mm-vetInternLM-XC2 + MMDU-45k
GPT-4 score: 38.8

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMDU: Ein Mehrrunden-Mehrbilder-Dialogverstehens-Benchmark und Anweisungsoptimierungsdatensatz für LVLMs | Forschungsarbeiten | HyperAI