Command Palette
Search for a command to run...
TinyLLaVA: Ein Framework für kleine große multimodale Modelle
TinyLLaVA: Ein Framework für kleine große multimodale Modelle
Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang
Zusammenfassung
Wir präsentieren den TinyLLaVA-Framework, der einen einheitlichen Ansatz für die Gestaltung und Analyse kleinskaliger Großer Multimodaler Modelle (LMMs) bietet. Wir untersuchen empirisch die Auswirkungen verschiedener Vision-Encoder, Verbindungsmoduln, Sprachmodelle, Trainingsdaten und Trainingsrezepte. Unsere umfangreichen Experimente zeigen, dass eine höhere Datenqualität in Kombination mit optimierten Trainingsrezepten es kleineren LMMs ermöglicht, konsistent Leistungen auf dem Niveau größerer LMMs zu erzielen. Unter unserem Framework trainieren wir eine Familie kleinskaliger LMMs. Unser bestes Modell, TinyLLaVA-3.1B, erreicht eine überlegene Gesamtleistung im Vergleich zu bestehenden 7B-Modellen wie LLaVA-1.5 und Qwen-VL. Wir hoffen, dass unsere Erkenntnisse zukünftige Forschungen im Bereich der Daten-Skalierung, Trainingskonfigurationen und Modellauswahl als Baseline dienen werden. Die Modellgewichte und der Quellcode werden öffentlich verfügbar gemacht.