LinVT: Verleihen Sie Ihrem bildbasierten großen Sprachmodell die Fähigkeit, Videos zu verstehen

Große Sprachmodelle (LLMs) werden in verschiedenen Aufgaben weitgehend eingesetzt, was uns motiviert, einen auf LLMs basierenden Assistenten für Videos zu entwickeln. Anstatt von Grund auf neu zu trainieren, schlagen wir ein Modul vor, das beliebige gut ausgebildete bildbasierte LLMs in video-LLMs (nach dem Training mit Videodaten) transformiert. Um die bildbasierten LLMs besser für die Verarbeitung von Videos anzupassen, führen wir zwei Designprinzipien ein: lineare Transformation zur Erhaltung der ursprünglichen visuellen-Sprachausrichtung und Repräsentativitätskondensierung aus redundantem Videoinhalt. Gestützt auf diese Prinzipien schlagen wir einen "Plug-and-Play" Linear Video Tokenizer (LinVT) vor, der bestehende bildbasierte LLMs befähigt, Videos zu verstehen. Wir evaluieren den LinVT anhand von sechs aktuellen visuellen LLMs: Aquila, Blip-3, InternVL2, Mipha, Molmo und Qwen2-VL und zeigen damit die hohe Kompatibilität des LinVT. Die auf LinVT basierenden LLMs erzielen über verschiedene Video-Benchmarks herausragende Leistungen und verdeutlichen somit die Effektivität des LinVT bei der multimodalen Videoverarbeitung.