Command Palette
Search for a command to run...
MAmmoTH-VL: Erzeugung multimodaler Schlussfolgerungen durch instruktionsbasiertes Feinjustieren in großem Umfang
Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

Abstract
Offene Quellcode-Multimodale Large Language Models (MLLMs) haben in einem breiten Spektrum multimodaler Aufgaben ein erhebliches Potenzial gezeigt. Ihre Schließenfähigkeiten sind jedoch durch bestehende Anweisungstuning-Datensätze eingeschränkt, die hauptsächlich aus akademischen Datensätzen wie VQA, AI2D und ChartQA umfunktioniert wurden. Diese Datensätze zielen auf einfache Aufgaben ab und bieten nur phrasenweise Antworten ohne Zwischenschritte der Begründung. Um diese Herausforderungen zu bewältigen, stellen wir eine skalierbare und kosteneffiziente Methode vor, um einen groß angelegten multimodalen Anweisungstuning-Datensatz mit reichhaltigen Zwischenschritten der Begründung zu erstellen, der darauf ausgelegt ist, CoT-Schließen zu fördern. Unter Verwendung ausschließlich offener Modelle erstellen wir einen Datensatz, der 12 Millionen Anweisungs-Antwort-Paare enthält und vielfältige, schließenintensive Aufgaben mit detaillierten und authentischen Begründungen abdeckt. Experimente zeigen, dass das Training von MLLMs anhand dieses Datensatzes die Schließenfähigkeiten erheblich verbessert und Spitzenleistungen auf Benchmarks wie MathVerse (+8,1 %), MMMU-Pro (+7 %) und MuirBench (+13,3 %) erreicht wird. Zudem demonstriert das Modell bemerkenswerte Verbesserungen bis zu 4 % auf Benchmarks ohne Schließkomponenten. Abschätzungstudien unterstreichen zudem die Bedeutung von Schlüsselkomponenten wie Umschreiben und Selbstfiltern im Prozess der Datensatz-Erstellung.
Code-Repositories
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| visual-question-answering-on-mm-vet | MAmmoTH-VL-8B (SI) | GPT-4 score: 60.6 |
| visual-question-answering-on-mm-vet | MAmmoTH-VL-8B | GPT-4 score: 62.3 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.