HyperAIHyperAI

Command Palette

Search for a command to run...

Lange Kontextübertragung von Sprache auf Vision

Peiyuan Zhang Kaichen Zhang Bo Li Guangtao Zeng Jingkang Yang Yuanhan Zhang Ziyue Wang Haoran Tan Chunyuan Li Ziwei Liu

Zusammenfassung

Videosequenzen bieten wertvolle zeitliche Informationen, aber existierende große multimodale Modelle (LMMs) haben Schwierigkeiten, extrem lange Videos zu verstehen. Viele Arbeiten begegnen diesem Problem, indem sie die Anzahl der visuellen Tokens durch Verwendung von visuellen Resamplern reduzieren. In diesem Paper greifen wir dieses Problem vom Perspektiv des Sprachmodells an. Durch einfache Extrapolation der Kontextlänge des Sprachbackbones ermöglichen wir es den LMMs, um Größenordnungen mehr visuelle Tokens zu verstehen, ohne spezielle Videotrainingdaten zu benötigen. Wir bezeichnen dieses Phänomen als Kontextübertragung und untersuchen seine Eigenschaften sorgfältig. Um die Fähigkeit der LMMs, sich auf lange Kontexte im visuellen Modus zu verallgemeinern, effektiv zu messen, entwickeln wir V-NIAH (Visual Needle-In-A-Haystack), eine rein synthetische Benchmark für langfristige Vision, inspiriert von dem NIAH-Test für Sprachmodelle. Unser vorgeschlagenes Long Video Assistant (LongVA) kann 2000 Frames oder über 200.000 visuelle Tokens ohne zusätzliche Komplexitäten verarbeiten. Dank seiner erweiterten Kontextlänge erreicht LongVA bei Video-MME unter Modellen mit einer Größe von 7 Milliarden Parametern die beste Leistung durch dichteres Abtasten von Eingabe-Frames. Unsere Arbeit ist Open Source und steht unter folgender URL zur Verfügung: https://github.com/EvolvingLMMs-Lab/LongVA.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lange Kontextübertragung von Sprache auf Vision | Paper | HyperAI