Video-as-Answer: Vorhersage und Generierung des nächsten Video-Events mit Joint-GRPO
Junhao Cheng Liang Hou Xin Tao Jing Liao

Abstract
Obwohl Sprachmodelle in vielen realen Anwendungen bereits einen erheblichen Einfluss erlangt haben, bleibt die Videogenerierung weitgehend auf den Bereich Unterhaltung beschränkt. Ausgehend von der inhärenten Fähigkeit von Videos, physikalische Weltinformationen zu vermitteln, die sich allein durch Sprache nur schwer darstellen lassen (beispielsweise die Anleitung zum Knoten eines Krawattenknotens ausschließlich mittels Text), identifizieren wir eine unterschätzte Möglichkeit, Video als neue Antwortmodalität für die Vorhersage des nächsten Ereignisses (Next-Event Prediction, NEP) einzusetzen – formalisiert als Video-Next-Event Prediction (VNEP). Während die etablierte NEP-Aufgabe ein Video zusammen mit einer prozeduralen oder prädiktiven Frage als Eingabe nimmt, um das nächste Ereignis textuell vorherzusagen, erfordert VNEP dynamische Videowiedergaben. Dieser Übergang von der Beschreibung zur Demonstration ermöglicht intuitivere und individuellere Antworten für prozedurales Lernen und kreative Exploration. Doch diese Aufgabe stellt bestehende Modelle vor erhebliche Herausforderungen, da sie ein Verständnis multimodaler Eingaben, anweisungsbedingte Schlussfolgerung sowie die Generierung von Videos mit visueller und semantischer Kohärenz erfordern. Um diesem Problem zu begegnen, stellen wir VANS vor, ein Modell, das Verstärkungslernen nutzt, um ein Vision-Language-Modell (VLM) mit einem Video-Diffusionsmodell (VDM) für die VNEP-Aufgabe zu synchronisieren. Der Kern von VANS ist unser vorgeschlagenes Joint-GRPO, das das VLM und das VDM so koordiniert, dass sie als einheitliches System agieren. Aufgrund eines gemeinsamen Belohnungssignals für ihre jeweiligen Ausgaben optimiert es das VLM, präzise und visuell gut umsetzbare Beschreibungen zu erzeugen, während es das VDM anleitet, Videos zu generieren, die diesen Beschreibungen sowie dem Eingabekontext visuell treu bleiben. Um diesen Lernprozess zu ermöglichen, haben wir VANS-Data-100K, eine speziell für die VNEP-Aufgabe konzipierte Datensammlung, erstellt. Experimente auf prozeduralen und prädiktiven Benchmark-Daten zeigen, dass VANS sowohl bei der Vorhersage von Videoevents als auch bei deren Visualisierung state-of-the-art-Leistung erzielt. Der Quellcode ist unter https://github.com/KlingTeam/VANS verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.