HyperAIHyperAI
vor 2 Monaten

Verbesserte Baselines durch visuelle Anweisungskalibrierung

Haotian Liu; Chunyuan Li; Yuheng Li; Yong Jae Lee
Verbesserte Baselines durch visuelle Anweisungskalibrierung
Abstract

Große multimodale Modelle (LMM) haben kürzlich bei der visuellen Anweisungskalibrierung ermutigende Fortschritte gezeigt. In dieser Notiz demonstrieren wir, dass der vollvernetzte visuelle-sprachliche multimodale Verbindungsschicht in LLaVA überraschend leistungsfähig und dateneffizient ist. Durch einfache Modifikationen an LLaVA, insbesondere durch die Verwendung von CLIP-ViT-L-336px mit einer MLP-Projektion und das Hinzufügen akademieorientierter VQA-Daten mit einfach formatierten Antwortanweisungen, etablieren wir stärkere Baseline-Modelle, die den aktuellen Stand der Technik auf 11 Benchmarks erreichen. Unser endgültiges 13-Milliarden-Parameter-Modell verwendet lediglich 1,2 Millionen öffentlich zugängliche Daten und schließt das vollständige Training in etwa einem Tag auf einem einzelnen Knoten mit 8 A100-Grafikkarten ab. Wir hoffen, dass dies die Forschung zu LMMs des aktuellen Standes der Technik zugänglicher machen kann. Der Code und das Modell werden öffentlich zur Verfügung gestellt.

Verbesserte Baselines durch visuelle Anweisungskalibrierung | Neueste Forschungsarbeiten | HyperAI