VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung
Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

Abstract
Verstärkungsfine-Tuning (RFT), ein zweistufiger Ansatz, bestehend aus überwachtem Fine-Tuning (SFT) und Verstärkungslernen (RL), hat vielversprechende Ergebnisse bei der Verbesserung der Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) gezeigt. Die Erweiterung von RFT auf große Video-Sprachmodelle (LVLMs) bleibt jedoch herausfordernd. Wir stellen VideoP2R vor, einen neuartigen prozessbewussten RFT-Ansatz für Videos, der die Video-Schlussfolgerung durch die Modellierung von Wahrnehmung und Schlussfolgerung als getrennte Prozesse verbessert. Im SFT-Schritt entwickeln wir eine dreistufige Pipeline zur Erzeugung von VideoP2R-CoT-162K, einer hochwertigen, prozessbewussten Chain-of-Thought-(CoT)-Datenbank für Wahrnehmung und Schlussfolgerung. Im RL-Schritt führen wir einen neuartigen prozessbewussten Gruppen-Relativen Policy-Optimierungs-Algorithmus (PA-GRPO) ein, der getrennte Belohnungen für Wahrnehmung und Schlussfolgerung bereitstellt. Umfangreiche Experimente zeigen, dass VideoP2R den Stand der Technik (SotA) auf sechs von sieben Benchmarks für Video-Schlussfolgerung und -Verständnis erreicht. Ablation-Studien bestätigen weiterhin die Wirksamkeit unserer prozessbewussten Modellierung und des PA-GRPO-Algorithmus und demonstrieren, dass die Ausgabe des Modells zur Wahrnehmung für nachgeschaltete Schlussfolgerungen informationsreich ist.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.