HyperAIHyperAI

Command Palette

Search for a command to run...

VTimeLLM: LLM befähigen, Video-Momente zu erfassen

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Textverarbeitungsfähigkeiten gezeigt, die in Form von Video-LLMs erweitert wurden, um Videodaten zu verarbeiten und visuelle Details zu verstehen. Dennoch sind bestehende Video-LLMs nur in der Lage, eine grobe Beschreibung des gesamten Videos zu liefern und scheitern daran, die genauen Start- und Endzeitgrenzen spezifischer Ereignisse zu erfassen. In dieser Arbeit lösen wir dieses Problem durch den Vorschlag von VTimeLLM, einem neuen Video-LLM, der für die feingranulare Verständnis- und Schlussfolgerungsfähigkeit von Videomomenten im Bezug auf Zeitgrenzen entwickelt wurde. Insbesondere verwendet unser VTimeLLM eine grenzbewusste dreistufige Trainingsstrategie, die nacheinander Bild-Text-Paare zur Merkmalausrichtung, Mehrereignis-Videos zur Steigerung der zeitlichen Grenzwahrnehmung und hochwertige Video-Anweisungen zum Feintuning einsetzt, um die zeitliche Verständnisfähigkeit weiter zu verbessern und mit menschlichen Absichten in Einklang zu bringen. Umfangreiche Experimente zeigen, dass VTimeLLM bei feingranularen zeitbezogenen Verständnisaufgaben für Videos wie temporalem Video-Grounding und dichtem Video-Beschreibungsschreiben deutlich bessere Ergebnisse als bestehende Video-LLMs erzielt. Zudem ermöglicht das feingranulare zeitliche Verständnis von Videos VTimeLLM auch in Benchmarks für videobasierte Dialoge bestehende Video-LLMs zu übertreffen und seine überlegenen multimodalen Verständnis- und Schlussfolgerungsfähigkeiten unter Beweis zu stellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VTimeLLM: LLM befähigen, Video-Momente zu erfassen | Paper | HyperAI