vor 4 Monaten

MAmmoTH-VL: Erzeugung multimodaler Schlussfolgerungen durch instruktionsbasiertes Feinjustieren in großem Umfang

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

Abstract

Offene Quellcode-Multimodale Large Language Models (MLLMs) haben in einem breiten Spektrum multimodaler Aufgaben ein erhebliches Potenzial gezeigt. Ihre Schließenfähigkeiten sind jedoch durch bestehende Anweisungstuning-Datensätze eingeschränkt, die hauptsächlich aus akademischen Datensätzen wie VQA, AI2D und ChartQA umfunktioniert wurden. Diese Datensätze zielen auf einfache Aufgaben ab und bieten nur phrasenweise Antworten ohne Zwischenschritte der Begründung. Um diese Herausforderungen zu bewältigen, stellen wir eine skalierbare und kosteneffiziente Methode vor, um einen groß angelegten multimodalen Anweisungstuning-Datensatz mit reichhaltigen Zwischenschritten der Begründung zu erstellen, der darauf ausgelegt ist, CoT-Schließen zu fördern. Unter Verwendung ausschließlich offener Modelle erstellen wir einen Datensatz, der 12 Millionen Anweisungs-Antwort-Paare enthält und vielfältige, schließenintensive Aufgaben mit detaillierten und authentischen Begründungen abdeckt. Experimente zeigen, dass das Training von MLLMs anhand dieses Datensatzes die Schließenfähigkeiten erheblich verbessert und Spitzenleistungen auf Benchmarks wie MathVerse (+8,1 %), MMMU-Pro (+7 %) und MuirBench (+13,3 %) erreicht wird. Zudem demonstriert das Modell bemerkenswerte Verbesserungen bis zu 4 % auf Benchmarks ohne Schließkomponenten. Abschätzungstudien unterstreichen zudem die Bedeutung von Schlüsselkomponenten wie Umschreiben und Selbstfiltern im Prozess der Datensatz-Erstellung.

Code-Repositories

mammoth-vl/mammoth-vl

pytorch

In GitHub erwähnt

Benchmarks

Benchmark	Methodik	Metriken
visual-question-answering-on-mm-vet	MAmmoTH-VL-8B (SI)	GPT-4 score: 60.6
visual-question-answering-on-mm-vet	MAmmoTH-VL-8B	GPT-4 score: 62.3

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette