Command Palette
Search for a command to run...
VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung
VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung
Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan
Zusammenfassung
Verstärkungsfine-Tuning (RFT), ein zweistufiger Ansatz, bestehend aus überwachtem Fine-Tuning (SFT) und Verstärkungslernen (RL), hat vielversprechende Ergebnisse bei der Verbesserung der Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) gezeigt. Die Erweiterung von RFT auf große Video-Sprachmodelle (LVLMs) bleibt jedoch herausfordernd. Wir stellen VideoP2R vor, einen neuartigen prozessbewussten RFT-Ansatz für Videos, der die Video-Schlussfolgerung durch die Modellierung von Wahrnehmung und Schlussfolgerung als getrennte Prozesse verbessert. Im SFT-Schritt entwickeln wir eine dreistufige Pipeline zur Erzeugung von VideoP2R-CoT-162K, einer hochwertigen, prozessbewussten Chain-of-Thought-(CoT)-Datenbank für Wahrnehmung und Schlussfolgerung. Im RL-Schritt führen wir einen neuartigen prozessbewussten Gruppen-Relativen Policy-Optimierungs-Algorithmus (PA-GRPO) ein, der getrennte Belohnungen für Wahrnehmung und Schlussfolgerung bereitstellt. Umfangreiche Experimente zeigen, dass VideoP2R den Stand der Technik (SotA) auf sechs von sieben Benchmarks für Video-Schlussfolgerung und -Verständnis erreicht. Ablation-Studien bestätigen weiterhin die Wirksamkeit unserer prozessbewussten Modellierung und des PA-GRPO-Algorithmus und demonstrieren, dass die Ausgabe des Modells zur Wahrnehmung für nachgeschaltete Schlussfolgerungen informationsreich ist.