vor 5 Monaten

MMDU: Ein Mehrrunden-Mehrbilder-Dialogverstehens-Benchmark und Anweisungsoptimierungsdatensatz für LVLMs

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin

Abstract

Die Generierung natürlicher und sinnvoller Antworten zur Kommunikation mit multimodalen menschlichen Eingaben ist eine grundlegende Fähigkeit großer visuellsprachlicher Modelle (LVLMs). Obwohl aktuelle Open-Source-LVLMs in vereinfachten Szenarien wie Single-Turn-Single-Image-Eingaben vielversprechende Leistungen zeigen, sind sie in realen Konversationskontexten, wie dem Folgen von Anweisungen in einem langen Kontextverlauf mit mehreren Durchgängen und Bildern, weniger erfolgreich. Bestehende Benchmarks für LVLMs konzentrieren sich hauptsächlich auf Multiple-Choice-Fragen oder kurze Antworten, was die Fähigkeiten der LVLMs in realen Mensch-KI-Interaktionsanwendungen nicht ausreichend bewertet. Deshalb stellen wir MMDU vor, ein umfassendes Benchmarking-Tool, sowie MMDU-45k, einen groß angelegten Datensatz zur Anweisungsfine-tuning, die beide entwickelt wurden, um die Leistungsfähigkeit von LVLMs bei multimodalen Konversationen mit mehreren Durchgängen und Bildern zu evaluieren und zu verbessern. Wir verwenden einen Clusteralgorithmus, um relevante Bilder und textuelle Beschreibungen aus der Open-Source-Wikipedia zu finden und erstellen Frage-Antwort-Paare mit Hilfe menschlicher Annotatoren und des Modells GPT-4o. MMDU verfügt über maximal 18.000 Bild+Text-Token, 20 Bilder und 27 Durchgänge, was mindestens fünfmal länger als bisherige Benchmarks ist und aktuelle LVLMs erhebliche Herausforderungen bietet. Unsere detaillierte Analyse von 15 repräsentativen LVLMs unter Verwendung von MMDU zeigt, dass Open-Source-LVLMs wegen begrenzter Anweisungsfeinabstimmungsdaten hinter geschlossenen Quellcodes zurückbleiben. Wir demonstrieren, dass das Fine-Tuning von Open-Source-LVLMs anhand des Datensatzes MMDU-45k diesen Abstand erheblich verringert: Es führt zu längeren und genauer formulierten Konversationen sowie zu besseren Ergebnissen sowohl im MMDU-Benchmark als auch in bestehenden Benchmarks (MMStar: +1,1%, MathVista: +1,5%, ChartQA: +1,2%). Unsere Beiträge bahnen den Weg zur Überbrückung der Lücke zwischen aktuellen LVLM-Modellen und den Anforderungen realer Anwendungen. Dieses Projekt ist unter https://github.com/Liuziyu77/MMDU verfügbar.

Code-Repositories

liuziyu77/mmdu

Offiziell

pytorch

In GitHub erwähnt

Benchmarks

Benchmark	Methodik	Metriken
visual-question-answering-on-mm-vet	InternLM-XC2 + MMDU-45k	GPT-4 score: 38.8

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette