HyperAIHyperAI

Command Palette

Search for a command to run...

vor 6 Tagen

VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung

Abstract

Verstärkungsfine-Tuning (RFT), ein zweistufiger Ansatz, bestehend aus überwachtem Fine-Tuning (SFT) und Verstärkungslernen (RL), hat vielversprechende Ergebnisse bei der Verbesserung der Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) gezeigt. Die Erweiterung von RFT auf große Video-Sprachmodelle (LVLMs) bleibt jedoch herausfordernd. Wir stellen VideoP2R vor, einen neuartigen prozessbewussten RFT-Ansatz für Videos, der die Video-Schlussfolgerung durch die Modellierung von Wahrnehmung und Schlussfolgerung als getrennte Prozesse verbessert. Im SFT-Schritt entwickeln wir eine dreistufige Pipeline zur Erzeugung von VideoP2R-CoT-162K, einer hochwertigen, prozessbewussten Chain-of-Thought-(CoT)-Datenbank für Wahrnehmung und Schlussfolgerung. Im RL-Schritt führen wir einen neuartigen prozessbewussten Gruppen-Relativen Policy-Optimierungs-Algorithmus (PA-GRPO) ein, der getrennte Belohnungen für Wahrnehmung und Schlussfolgerung bereitstellt. Umfangreiche Experimente zeigen, dass VideoP2R den Stand der Technik (SotA) auf sechs von sieben Benchmarks für Video-Schlussfolgerung und -Verständnis erreicht. Ablation-Studien bestätigen weiterhin die Wirksamkeit unserer prozessbewussten Modellierung und des PA-GRPO-Algorithmus und demonstrieren, dass die Ausgabe des Modells zur Wahrnehmung für nachgeschaltete Schlussfolgerungen informationsreich ist.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung | Forschungsarbeiten | HyperAI