VTimeLLM: LLM befähigen, Video-Momente zu erfassen

Große Sprachmodelle (LLMs) haben bemerkenswerte Textverarbeitungsfähigkeiten gezeigt, die in Form von Video-LLMs erweitert wurden, um Videodaten zu verarbeiten und visuelle Details zu verstehen. Dennoch sind bestehende Video-LLMs nur in der Lage, eine grobe Beschreibung des gesamten Videos zu liefern und scheitern daran, die genauen Start- und Endzeitgrenzen spezifischer Ereignisse zu erfassen. In dieser Arbeit lösen wir dieses Problem durch den Vorschlag von VTimeLLM, einem neuen Video-LLM, der für die feingranulare Verständnis- und Schlussfolgerungsfähigkeit von Videomomenten im Bezug auf Zeitgrenzen entwickelt wurde. Insbesondere verwendet unser VTimeLLM eine grenzbewusste dreistufige Trainingsstrategie, die nacheinander Bild-Text-Paare zur Merkmalausrichtung, Mehrereignis-Videos zur Steigerung der zeitlichen Grenzwahrnehmung und hochwertige Video-Anweisungen zum Feintuning einsetzt, um die zeitliche Verständnisfähigkeit weiter zu verbessern und mit menschlichen Absichten in Einklang zu bringen. Umfangreiche Experimente zeigen, dass VTimeLLM bei feingranularen zeitbezogenen Verständnisaufgaben für Videos wie temporalem Video-Grounding und dichtem Video-Beschreibungsschreiben deutlich bessere Ergebnisse als bestehende Video-LLMs erzielt. Zudem ermöglicht das feingranulare zeitliche Verständnis von Videos VTimeLLM auch in Benchmarks für videobasierte Dialoge bestehende Video-LLMs zu übertreffen und seine überlegenen multimodalen Verständnis- und Schlussfolgerungsfähigkeiten unter Beweis zu stellen.