HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten

MM1.5: Methoden, Analyse und Erkenntnisse aus der Feinabstimmung multimodaler LLMs

Abstract

Wir stellen MM1.5 vor, eine neue Familie multimodaler großer Sprachmodelle (MLLMs), die darauf abzielt, die Fähigkeiten im Bereich der textreichen Bildverstehbarkeit, visueller Verweisung und Lokalisierung sowie der Mehrbild-Reasoning zu verbessern. Aufbauend auf der MM1-Architektur verfolgt MM1.5 einen datenzentrierten Ansatz für das Modelltraining und untersucht systematisch die Auswirkungen verschiedener Datengemische über den gesamten Trainingszyklus des Modells. Dazu gehören hochwertige OCR-Daten und synthetische Beschriftungen für die kontinuierliche Vortrainierung sowie ein optimiertes Gemisch aus visuellen Anweisungstuning-Daten für das überwachte Feintuning. Unsere Modelle reichen von 1B bis 30B Parametern und umfassen sowohl dichte als auch Mixture-of-Experts (MoE)-Varianten. Sie zeigen, dass eine sorgfältige Datenauswahl und strategische Trainingsansätze bereits bei kleineren Skalen (1B und 3B) zu starken Leistungen führen können. Zudem führen wir zwei spezialisierte Varianten ein: MM1.5-Video, ausgelegt für die Videoverarbeitung, und MM1.5-UI, speziell für die Verarbeitung mobiler Benutzeroberflächen. Durch umfangreiche empirische Studien und Ablationsanalysen geben wir detaillierte Einblicke in die Trainingsprozesse und Entscheidungsfindungen, die unsere endgültigen Designs beeinflusst haben, und bieten wertvolle Anleitung für zukünftige Forschungsarbeiten im Bereich der MLLM-Entwicklung.

Benchmarks

BenchmarkMethodikMetriken
visual-question-answering-on-mm-vetMM1.5-30B
GPT-4 score: 52.0
visual-question-answering-on-mm-vetMM1.5-3B
GPT-4 score: 41.0
visual-question-answering-on-mm-vetMM1.5-1B-MoE
GPT-4 score: 39.8
visual-question-answering-on-mm-vetMM1.5-7B
GPT-4 score: 42.2
visual-question-answering-on-mm-vetMM1.5-1B
GPT-4 score: 37.4
visual-question-answering-on-mm-vetMM1.5-3B-MoE
GPT-4 score: 43.7

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MM1.5: Methoden, Analyse und Erkenntnisse aus der Feinabstimmung multimodaler LLMs | Forschungsarbeiten | HyperAI