HyperAIHyperAI

Command Palette

Search for a command to run...

TinyLLaVA: Ein Framework für kleine große multimodale Modelle

Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang

Zusammenfassung

Wir präsentieren den TinyLLaVA-Framework, der einen einheitlichen Ansatz für die Gestaltung und Analyse kleinskaliger Großer Multimodaler Modelle (LMMs) bietet. Wir untersuchen empirisch die Auswirkungen verschiedener Vision-Encoder, Verbindungsmoduln, Sprachmodelle, Trainingsdaten und Trainingsrezepte. Unsere umfangreichen Experimente zeigen, dass eine höhere Datenqualität in Kombination mit optimierten Trainingsrezepten es kleineren LMMs ermöglicht, konsistent Leistungen auf dem Niveau größerer LMMs zu erzielen. Unter unserem Framework trainieren wir eine Familie kleinskaliger LMMs. Unser bestes Modell, TinyLLaVA-3.1B, erreicht eine überlegene Gesamtleistung im Vergleich zu bestehenden 7B-Modellen wie LLaVA-1.5 und Qwen-VL. Wir hoffen, dass unsere Erkenntnisse zukünftige Forschungen im Bereich der Daten-Skalierung, Trainingskonfigurationen und Modellauswahl als Baseline dienen werden. Die Modellgewichte und der Quellcode werden öffentlich verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp