HyperAIHyperAI
vor 17 Tagen

TimeSuite: Verbesserung von MLLMs für die Verarbeitung langer Videos durch grounded Tuning

Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang
TimeSuite: Verbesserung von MLLMs für die Verarbeitung langer Videos durch grounded Tuning
Abstract

Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Leistungen im Verständnis kurzer Videos gezeigt. Dennoch bleibt das Verständnis von Langform-Videos weiterhin eine Herausforderung für MLLMs. In dieser Arbeit stellen wir TimeSuite vor, eine Sammlung neuer Ansätze zur Anpassung bestehender MLLMs für kurze Videos an die Aufgabe des Langform-Videoverständnisses. Dazu gehören ein einfaches, aber effizientes Framework zur Verarbeitung langer Videosequenzen, ein hochwertiges Video-Datensatz für die grounded-Tuning von MLLMs sowie eine sorgfältig entworfene Instruction-Tuning-Aufgabe, die die Grounding-Überwachung explizit im traditionellen QA-Format integriert. Konkret erweitern wir basierend auf VideoChat unser MLLM für Langvideos, das als VideoChat-T bezeichnet wird, durch die Implementierung einer Token-Shuffling-Technik zur Kompression langer Videotokens sowie die Einführung einer Temporal Adaptive Position Encoding (TAPE), um die zeitliche Wahrnehmung der visuellen Darstellung zu verbessern. Gleichzeitig führen wir TimePro ein – einen umfassenden, auf Grounding ausgerichteten Instruction-Tuning-Datensatz, bestehend aus 9 Aufgaben und 349.000 hochwertigen grounded Annotationen. Besonders hervorzuheben ist die Einführung einer neuen Task-Art für das Instruction-Tuning, genannt Temporal Grounded Caption, die detaillierte Videobeschreibungen mit der gleichzeitigen Vorhersage zeitlicher Stempel ermöglicht. Diese explizite Vorhersage zeitlicher Positionen leitet das MLLM dabei an, korrekt auf die visuellen Inhalte zu fokussieren, wenn eine Beschreibung generiert wird, und verringert so das Risiko von Halluzinationen, die durch die LLMs verursacht werden können. Experimentelle Ergebnisse zeigen, dass TimeSuite eine erfolgreiche Lösung darstellt, um die Fähigkeit von MLLMs für kurze Videos im Bereich des Langform-Videoverständnisses signifikant zu verbessern, wobei eine Steigerung um 5,6 % und 6,8 % auf den Benchmarks Egoschema und VideoMME erreicht wird. Zudem zeigt VideoChat-T robuste zero-shot-Fähigkeiten im Bereich der zeitlichen Grounding und übertrifft dabei deutlich bestehende state-of-the-art MLLMs. Nach Fine-Tuning erreicht es eine Leistung, die mit traditionellen, überwachten Expertenmodellen vergleichbar ist.