HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-OneVision: Einfache visuelle Aufgabenübertragung

Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li

Zusammenfassung

Wir präsentieren LLaVA-OneVision, eine Familie offener großer multimodaler Modelle (LMMs), die durch die Zusammenfassung unserer Erkenntnisse zu Daten, Modellen und visuellen Darstellungen in der Blogreihe LLaVA-NeXT entwickelt wurde. Unsere experimentellen Ergebnisse zeigen, dass LLaVA-OneVision das erste einzelne Modell ist, das gleichzeitig die Leistungsgrenzen offener LMMs in drei wichtigen Computer Vision-Szenarien erweitern kann: Einzelbild-, Mehrbild- und Videobearbeitungsszenarien. Besonders wichtig ist dabei, dass die Konzeption von LLaVA-OneVision starke Transfer-Lernfähigkeiten zwischen verschiedenen Modalitäten/Szenarien ermöglicht, was zu neuen aufstrebenden Fähigkeiten führt. Insbesondere werden starke Videoanalysefähigkeiten und übergeordnete Szenariofähigkeiten durch den Aufgabenübertrag von Bildern zu Videos demonstriert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp