LLaMA-VID: Ein Bild ist zwei Token wert in großen Sprachmodellen.

In dieser Arbeit stellen wir eine neue Methode vor, um die Herausforderung der Token-Generierung in Vision-Language-Modellen (VLMs) für Video- und Bildverstehen zu bewältigen. Diese Methode wird LLaMA-VID genannt. Obwohl aktuelle VLMs in Aufgaben wie Bildbeschreibung und visuelle Fragebeantwortung erfolgreich sind, stoßen sie bei der Verarbeitung langer Videos auf rechnerische Belastungen aufgrund der übermäßigen Anzahl an visuellen Tokens. LLaMA-VID löst dieses Problem, indem es jeden Frame mit zwei unterschiedlichen Tokens darstellt: dem Kontext-Token und dem Inhalt-Token. Der Kontext-Token kodiert den gesamten Bildkontext basierend auf der Benutzereingabe, während der Inhalt-Token die visuellen Hinweise in jedem Frame erfasst. Diese Doppeltoken-Strategie reduziert die Belastung durch lange Videos erheblich, ohne kritische Informationen zu verlieren. Im Allgemeinen ermöglicht LLaMA-VID bestehenden Frameworks die Unterstützung von Stundenlangen Videos und hebt ihre Obergrenze durch ein zusätzliches Kontext-Token. Es wurde bewiesen, dass LLaMA-VID die meisten video- oder bildbasierten Benchmarks besser abschneidet als frühere Methoden. Der Quellcode ist unter \href{https://github.com/dvlab-research/LLaMA-VID}{https://github.com/dvlab-research/LLaMA-VID} verfügbar.