vor 6 Monaten

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

Zusammenfassung

Wir stellen MM1.5 vor, eine neue Familie multimodaler großer Sprachmodelle (MLLMs), die darauf abzielt, die Fähigkeiten im Bereich der textreichen Bildverstehbarkeit, visueller Verweisung und Lokalisierung sowie der Mehrbild-Reasoning zu verbessern. Aufbauend auf der MM1-Architektur verfolgt MM1.5 einen datenzentrierten Ansatz für das Modelltraining und untersucht systematisch die Auswirkungen verschiedener Datengemische über den gesamten Trainingszyklus des Modells. Dazu gehören hochwertige OCR-Daten und synthetische Beschriftungen für die kontinuierliche Vortrainierung sowie ein optimiertes Gemisch aus visuellen Anweisungstuning-Daten für das überwachte Feintuning. Unsere Modelle reichen von 1B bis 30B Parametern und umfassen sowohl dichte als auch Mixture-of-Experts (MoE)-Varianten. Sie zeigen, dass eine sorgfältige Datenauswahl und strategische Trainingsansätze bereits bei kleineren Skalen (1B und 3B) zu starken Leistungen führen können. Zudem führen wir zwei spezialisierte Varianten ein: MM1.5-Video, ausgelegt für die Videoverarbeitung, und MM1.5-UI, speziell für die Verarbeitung mobiler Benutzeroberflächen. Durch umfangreiche empirische Studien und Ablationsanalysen geben wir detaillierte Einblicke in die Trainingsprozesse und Entscheidungsfindungen, die unsere endgültigen Designs beeinflusst haben, und bieten wertvolle Anleitung für zukünftige Forschungsarbeiten im Bereich der MLLM-Entwicklung.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MM1.5: Methoden, Analyse und Erkenntnisse aus der Feinabstimmung multimodaler LLMs

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li13 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MM1.5: Methoden, Analyse und Erkenntnisse aus der Feinabstimmung multimodaler LLMs

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li13 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MM1.5: Methoden, Analyse und Erkenntnisse aus der Feinabstimmung multimodaler LLMs

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li13 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li