vor 4 Stunden

Zusammenfassung

Trotz Fortschritte beim Einsatz von MLLMs für diverse Videoaufgaben bleibt die Vorhersage von Videoereignissen (Video Event Prediction, VEP) vergleichsweise wenig erforscht. VEP erfordert von Modellen eine feingranulare zeitliche Modellierung von Videos sowie die Etablierung logischer Zusammenhänge zwischen Videosequenzen und zukünftigen Ereignissen – eine Fähigkeit, bei der aktuelle MLLMs nach wie vor Defizite aufweisen. In dieser Arbeit führen wir zunächst eine umfassende Evaluierung führender MLLMs im Kontext der VEP-Aufgabe durch und identifizieren die Ursachen für ungenaue Vorhersagen, darunter mangelnde logische Schlussfolgerungsfähigkeit bei der Vorhersage zukünftiger Ereignisse sowie eine unzureichende Nutzung visueller Informationen. Um diese Herausforderungen zu adressieren, schlagen wir das Chain-of-Events (CoE)-Paradigma vor, das zeitliche Ereignisketten konstruiert, um MLLMs implizit dazu anzuhalten, sich auf den visuellen Inhalt sowie auf die logischen Verbindungen zwischen Videos und zukünftigen Ereignissen zu konzentrieren. Durch mehrere Trainingsprotokolle wird die推理fähigkeit des Modells gezielt gestärkt. Experimentelle Ergebnisse auf öffentlichen Benchmarks belegen, dass unsere Methode sowohl führende Open-Source- als auch kommerzielle MLLMs übertrifft und einen neuen State-of-the-Art für die VEP-Aufgabe etabliert. Code und Modelle werden in Kürze veröffentlicht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 4 Stunden

Videobegreifen

Multimodal

Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 4 Stunden

Videobegreifen

Multimodal

Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Video-CoE: Verstärkung der Vorhersage von Videoereignissen mittels einer Ereigniskette

Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Video-CoE: Verstärkung der Vorhersage von Videoereignissen mittels einer Ereigniskette

Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Video-CoE: Verstärkung der Vorhersage von Videoereignissen mittels einer Ereigniskette

Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters