Command Palette
Search for a command to run...
MM1.5: Methoden, Analyse und Erkenntnisse aus der Feinabstimmung multimodaler LLMs
Abstract
Wir stellen MM1.5 vor, eine neue Familie multimodaler großer Sprachmodelle (MLLMs), die darauf abzielt, die Fähigkeiten im Bereich der textreichen Bildverstehbarkeit, visueller Verweisung und Lokalisierung sowie der Mehrbild-Reasoning zu verbessern. Aufbauend auf der MM1-Architektur verfolgt MM1.5 einen datenzentrierten Ansatz für das Modelltraining und untersucht systematisch die Auswirkungen verschiedener Datengemische über den gesamten Trainingszyklus des Modells. Dazu gehören hochwertige OCR-Daten und synthetische Beschriftungen für die kontinuierliche Vortrainierung sowie ein optimiertes Gemisch aus visuellen Anweisungstuning-Daten für das überwachte Feintuning. Unsere Modelle reichen von 1B bis 30B Parametern und umfassen sowohl dichte als auch Mixture-of-Experts (MoE)-Varianten. Sie zeigen, dass eine sorgfältige Datenauswahl und strategische Trainingsansätze bereits bei kleineren Skalen (1B und 3B) zu starken Leistungen führen können. Zudem führen wir zwei spezialisierte Varianten ein: MM1.5-Video, ausgelegt für die Videoverarbeitung, und MM1.5-UI, speziell für die Verarbeitung mobiler Benutzeroberflächen. Durch umfangreiche empirische Studien und Ablationsanalysen geben wir detaillierte Einblicke in die Trainingsprozesse und Entscheidungsfindungen, die unsere endgültigen Designs beeinflusst haben, und bieten wertvolle Anleitung für zukünftige Forschungsarbeiten im Bereich der MLLM-Entwicklung.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| visual-question-answering-on-mm-vet | MM1.5-30B | GPT-4 score: 52.0 |
| visual-question-answering-on-mm-vet | MM1.5-3B | GPT-4 score: 41.0 |
| visual-question-answering-on-mm-vet | MM1.5-1B-MoE | GPT-4 score: 39.8 |
| visual-question-answering-on-mm-vet | MM1.5-7B | GPT-4 score: 42.2 |
| visual-question-answering-on-mm-vet | MM1.5-1B | GPT-4 score: 37.4 |
| visual-question-answering-on-mm-vet | MM1.5-3B-MoE | GPT-4 score: 43.7 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.