HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserte Baselines durch visuelle Anweisungskalibrierung

Haotian Liu Chunyuan Li Yuheng Li Yong Jae Lee

Zusammenfassung

Große multimodale Modelle (LMM) haben kürzlich bei der visuellen Anweisungskalibrierung ermutigende Fortschritte gezeigt. In dieser Notiz demonstrieren wir, dass der vollvernetzte visuelle-sprachliche multimodale Verbindungsschicht in LLaVA überraschend leistungsfähig und dateneffizient ist. Durch einfache Modifikationen an LLaVA, insbesondere durch die Verwendung von CLIP-ViT-L-336px mit einer MLP-Projektion und das Hinzufügen akademieorientierter VQA-Daten mit einfach formatierten Antwortanweisungen, etablieren wir stärkere Baseline-Modelle, die den aktuellen Stand der Technik auf 11 Benchmarks erreichen. Unser endgültiges 13-Milliarden-Parameter-Modell verwendet lediglich 1,2 Millionen öffentlich zugängliche Daten und schließt das vollständige Training in etwa einem Tag auf einem einzelnen Knoten mit 8 A100-Grafikkarten ab. Wir hoffen, dass dies die Forschung zu LMMs des aktuellen Standes der Technik zugänglicher machen kann. Der Code und das Modell werden öffentlich zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp