Lange Kontextübertragung von Sprache auf Vision

Videosequenzen bieten wertvolle zeitliche Informationen, aber existierende große multimodale Modelle (LMMs) haben Schwierigkeiten, extrem lange Videos zu verstehen. Viele Arbeiten begegnen diesem Problem, indem sie die Anzahl der visuellen Tokens durch Verwendung von visuellen Resamplern reduzieren. In diesem Paper greifen wir dieses Problem vom Perspektiv des Sprachmodells an. Durch einfache Extrapolation der Kontextlänge des Sprachbackbones ermöglichen wir es den LMMs, um Größenordnungen mehr visuelle Tokens zu verstehen, ohne spezielle Videotrainingdaten zu benötigen. Wir bezeichnen dieses Phänomen als Kontextübertragung und untersuchen seine Eigenschaften sorgfältig. Um die Fähigkeit der LMMs, sich auf lange Kontexte im visuellen Modus zu verallgemeinern, effektiv zu messen, entwickeln wir V-NIAH (Visual Needle-In-A-Haystack), eine rein synthetische Benchmark für langfristige Vision, inspiriert von dem NIAH-Test für Sprachmodelle. Unser vorgeschlagenes Long Video Assistant (LongVA) kann 2000 Frames oder über 200.000 visuelle Tokens ohne zusätzliche Komplexitäten verarbeiten. Dank seiner erweiterten Kontextlänge erreicht LongVA bei Video-MME unter Modellen mit einer Größe von 7 Milliarden Parametern die beste Leistung durch dichteres Abtasten von Eingabe-Frames. Unsere Arbeit ist Open Source und steht unter folgender URL zur Verfügung: https://github.com/EvolvingLMMs-Lab/LongVA.