HyperAIHyperAI

Command Palette

Search for a command to run...

TS-LLaVA: Erstellung visueller Token durch Miniaturbild- und Abtastverfahren für video-basierte Large Language Models ohne Training

Tingyu Qu Mingxiao Li Tinne Tuytelaars Marie-Francine Moens

Zusammenfassung

Neuere Fortschritte bei multimodalen großen Sprachmodellen (LLMs) haben große Erfolge bei der Verarbeitung von multimodalem Inhalt gezeigt. Bei Video-Verarbeitungsaufgaben sind trainingsbasierte Video-LLMs aufgrund des Mangels an hochwertigen, küratoriell erstellten Video-Text-Datensätzen schwierig zu entwickeln. Im Gegensatz dazu sind gepaarte Bild-Text-Daten viel einfacher zu beschaffen, und es gibt erhebliche Ähnlichkeiten zwischen Bildern und Videos. Daher bietet sich die Erweiterung von Bild-LLMs für Video-Verarbeitungsaufgaben als eine attraktive Alternative an. Die Entwicklung effektiver Strategien zur Kompression visueller Tokens aus mehreren Frames ist ein vielversprechender Ansatz, um die leistungsfähigen vortrainierten Bild-LLMs zu nutzen. In dieser Arbeit untersuchen wir die Grenzen der existierenden Kompressionsstrategien zur Erstellung eines trainingsfreien Video-LLM. Unsere Ergebnisse führen zu unserer Methode TS-LLaVA, die visuelle Tokens durch eine Miniaturbild-und-Stichprobenstrategie (Thumbnail-and-Sampling) konstruiert. Gegeben ein Video, wählen wir wenige gleichmäßig verteilte Frames aus allen Eingabeframes aus, um ein Miniaturbild als detaillierte visuelle Anregung zu erstellen, das durch Stichprobenvisuelle Tokens aus allen Eingabeframes ergänzt wird. Unser Verfahren erzielt den neuen Stand der Technik unter trainingsfreien Video-LLMs in verschiedenen Benchmarks. Bemerkenswerterweise übertrifft unser 34-Milliarden-Token-Modell GPT-4V im MVBench-Benchmark und erreicht vergleichbare Leistungen wie das 72-Milliarden-Token-trainingsbasierte Video-LLM, Video-LLaMA2, im anspruchsvollen MLVU-Benchmark. Der Quellcode ist unter https://github.com/tingyu215/TS-LLaVA verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp