Command Palette
Search for a command to run...
Video-CoE: Verstärkung der Vorhersage von Videoereignissen mittels einer Ereigniskette
Video-CoE: Verstärkung der Vorhersage von Videoereignissen mittels einer Ereigniskette
Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu
Zusammenfassung
Trotz Fortschritte beim Einsatz von MLLMs für diverse Videoaufgaben bleibt die Vorhersage von Videoereignissen (Video Event Prediction, VEP) vergleichsweise wenig erforscht. VEP erfordert von Modellen eine feingranulare zeitliche Modellierung von Videos sowie die Etablierung logischer Zusammenhänge zwischen Videosequenzen und zukünftigen Ereignissen – eine Fähigkeit, bei der aktuelle MLLMs nach wie vor Defizite aufweisen. In dieser Arbeit führen wir zunächst eine umfassende Evaluierung führender MLLMs im Kontext der VEP-Aufgabe durch und identifizieren die Ursachen für ungenaue Vorhersagen, darunter mangelnde logische Schlussfolgerungsfähigkeit bei der Vorhersage zukünftiger Ereignisse sowie eine unzureichende Nutzung visueller Informationen. Um diese Herausforderungen zu adressieren, schlagen wir das Chain-of-Events (CoE)-Paradigma vor, das zeitliche Ereignisketten konstruiert, um MLLMs implizit dazu anzuhalten, sich auf den visuellen Inhalt sowie auf die logischen Verbindungen zwischen Videos und zukünftigen Ereignissen zu konzentrieren. Durch mehrere Trainingsprotokolle wird die推理fähigkeit des Modells gezielt gestärkt. Experimentelle Ergebnisse auf öffentlichen Benchmarks belegen, dass unsere Methode sowohl führende Open-Source- als auch kommerzielle MLLMs übertrifft und einen neuen State-of-the-Art für die VEP-Aufgabe etabliert. Code und Modelle werden in Kürze veröffentlicht.