HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

MAmmoTH-VL: Erzeugung multimodaler Schlussfolgerungen durch instruktionsbasiertes Feinjustieren in großem Umfang

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

MAmmoTH-VL: Erzeugung multimodaler Schlussfolgerungen durch instruktionsbasiertes Feinjustieren in großem Umfang

Abstract

Offene Quellcode-Multimodale Large Language Models (MLLMs) haben in einem breiten Spektrum multimodaler Aufgaben ein erhebliches Potenzial gezeigt. Ihre Schließenfähigkeiten sind jedoch durch bestehende Anweisungstuning-Datensätze eingeschränkt, die hauptsächlich aus akademischen Datensätzen wie VQA, AI2D und ChartQA umfunktioniert wurden. Diese Datensätze zielen auf einfache Aufgaben ab und bieten nur phrasenweise Antworten ohne Zwischenschritte der Begründung. Um diese Herausforderungen zu bewältigen, stellen wir eine skalierbare und kosteneffiziente Methode vor, um einen groß angelegten multimodalen Anweisungstuning-Datensatz mit reichhaltigen Zwischenschritten der Begründung zu erstellen, der darauf ausgelegt ist, CoT-Schließen zu fördern. Unter Verwendung ausschließlich offener Modelle erstellen wir einen Datensatz, der 12 Millionen Anweisungs-Antwort-Paare enthält und vielfältige, schließenintensive Aufgaben mit detaillierten und authentischen Begründungen abdeckt. Experimente zeigen, dass das Training von MLLMs anhand dieses Datensatzes die Schließenfähigkeiten erheblich verbessert und Spitzenleistungen auf Benchmarks wie MathVerse (+8,1 %), MMMU-Pro (+7 %) und MuirBench (+13,3 %) erreicht wird. Zudem demonstriert das Modell bemerkenswerte Verbesserungen bis zu 4 % auf Benchmarks ohne Schließkomponenten. Abschätzungstudien unterstreichen zudem die Bedeutung von Schlüsselkomponenten wie Umschreiben und Selbstfiltern im Prozess der Datensatz-Erstellung.

Code-Repositories

mammoth-vl/mammoth-vl
pytorch
In GitHub erwähnt

Benchmarks

BenchmarkMethodikMetriken
visual-question-answering-on-mm-vetMAmmoTH-VL-8B (SI)
GPT-4 score: 60.6
visual-question-answering-on-mm-vetMAmmoTH-VL-8B
GPT-4 score: 62.3

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MAmmoTH-VL: Erzeugung multimodaler Schlussfolgerungen durch instruktionsbasiertes Feinjustieren in großem Umfang | Forschungsarbeiten | HyperAI