HyperAIHyperAI

Command Palette

Search for a command to run...

LinVT: Verleihen Sie Ihrem bildbasierten großen Sprachmodell die Fähigkeit, Videos zu verstehen

Lishuai Gao Yujie Zhong† Yingsen Zeng Haoxian Tan Dengjie Li Zheng Zhao

Zusammenfassung

Große Sprachmodelle (LLMs) werden in verschiedenen Aufgaben weitgehend eingesetzt, was uns motiviert, einen auf LLMs basierenden Assistenten für Videos zu entwickeln. Anstatt von Grund auf neu zu trainieren, schlagen wir ein Modul vor, das beliebige gut ausgebildete bildbasierte LLMs in video-LLMs (nach dem Training mit Videodaten) transformiert. Um die bildbasierten LLMs besser für die Verarbeitung von Videos anzupassen, führen wir zwei Designprinzipien ein: lineare Transformation zur Erhaltung der ursprünglichen visuellen-Sprachausrichtung und Repräsentativitätskondensierung aus redundantem Videoinhalt. Gestützt auf diese Prinzipien schlagen wir einen "Plug-and-Play" Linear Video Tokenizer (LinVT) vor, der bestehende bildbasierte LLMs befähigt, Videos zu verstehen. Wir evaluieren den LinVT anhand von sechs aktuellen visuellen LLMs: Aquila, Blip-3, InternVL2, Mipha, Molmo und Qwen2-VL und zeigen damit die hohe Kompatibilität des LinVT. Die auf LinVT basierenden LLMs erzielen über verschiedene Video-Benchmarks herausragende Leistungen und verdeutlichen somit die Effektivität des LinVT bei der multimodalen Videoverarbeitung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp