Chat-UniVi: Einheitliche visuelle Darstellung verleiht großen Sprachmodellen das Verständnis von Bildern und Videos

Große Sprachmodelle haben beeindruckende universelle Fähigkeiten in einer Vielzahl von offenen Aufgaben gezeigt und ihre Nutzbarkeit auf multimodale Konversationen erweitert. Bestehende Methoden stoßen jedoch bei der effektiven Verarbeitung von Bild- und Videoverstehen, insbesondere bei begrenzten visuellen Token, auf Herausforderungen. In dieser Arbeit stellen wir Chat-UniVi vor, ein vereinheitlichtes Visio-Sprachmodell (Vision-language model), das in der Lage ist, Konversationen zu führen, die sowohl Bilder als auch Videos durch eine einheitliche visuelle Darstellung umfassen. Insbesondere verwenden wir eine Reihe dynamischer visueller Token, um Bilder und Videos einheitlich darzustellen. Dieses Darstellungsframework ermöglicht es dem Modell, effizient eine begrenzte Anzahl von visuellen Token zu nutzen, um gleichzeitig die für Bilder notwendigen räumlichen Details und die für Videos erforderlichen umfassenden zeitlichen Beziehungen zu erfassen. Zudem nutzen wir eine mehrskalige Darstellung, die es dem Modell ermöglicht, sowohl hochrangige semantische Konzepte als auch niedrigstufige visuelle Details wahrzunehmen. Bemerkenswerterweise wird Chat-UniVi an einem gemischten Datensatz trainiert, der sowohl Bilder als auch Videos enthält, was eine direkte Anwendung auf Aufgaben ermöglicht, die beide Medien betreffen, ohne dass Änderungen erforderlich sind. Umfangreiche experimentelle Ergebnisse zeigen, dass Chat-UniVi konsistent bessere Leistungen erzielt als bestehende Methoden, die ausschließlich für Bilder oder Videos entwickelt wurden. Der Quellcode ist unter https://github.com/PKU-YuanGroup/Chat-UniVi verfügbar.