LLaVA-OneVision: Einfache visuelle Aufgabenübertragung

Wir präsentieren LLaVA-OneVision, eine Familie offener großer multimodaler Modelle (LMMs), die durch die Zusammenfassung unserer Erkenntnisse zu Daten, Modellen und visuellen Darstellungen in der Blogreihe LLaVA-NeXT entwickelt wurde. Unsere experimentellen Ergebnisse zeigen, dass LLaVA-OneVision das erste einzelne Modell ist, das gleichzeitig die Leistungsgrenzen offener LMMs in drei wichtigen Computer Vision-Szenarien erweitern kann: Einzelbild-, Mehrbild- und Videobearbeitungsszenarien. Besonders wichtig ist dabei, dass die Konzeption von LLaVA-OneVision starke Transfer-Lernfähigkeiten zwischen verschiedenen Modalitäten/Szenarien ermöglicht, was zu neuen aufstrebenden Fähigkeiten führt. Insbesondere werden starke Videoanalysefähigkeiten und übergeordnete Szenariofähigkeiten durch den Aufgabenübertrag von Bildern zu Videos demonstriert.