Verbesserte Baselines durch visuelle Anweisungskalibrierung

Große multimodale Modelle (LMM) haben kürzlich bei der visuellen Anweisungskalibrierung ermutigende Fortschritte gezeigt. In dieser Notiz demonstrieren wir, dass der vollvernetzte visuelle-sprachliche multimodale Verbindungsschicht in LLaVA überraschend leistungsfähig und dateneffizient ist. Durch einfache Modifikationen an LLaVA, insbesondere durch die Verwendung von CLIP-ViT-L-336px mit einer MLP-Projektion und das Hinzufügen akademieorientierter VQA-Daten mit einfach formatierten Antwortanweisungen, etablieren wir stärkere Baseline-Modelle, die den aktuellen Stand der Technik auf 11 Benchmarks erreichen. Unser endgültiges 13-Milliarden-Parameter-Modell verwendet lediglich 1,2 Millionen öffentlich zugängliche Daten und schließt das vollständige Training in etwa einem Tag auf einem einzelnen Knoten mit 8 A100-Grafikkarten ab. Wir hoffen, dass dies die Forschung zu LMMs des aktuellen Standes der Technik zugänglicher machen kann. Der Code und das Modell werden öffentlich zur Verfügung gestellt.