Command Palette
Search for a command to run...
ParaVT: Zähmung des Tool-Prior-Paradoxons für paralleles Tool-Use in agenticem Video-Reinforcement-Learning
ParaVT: Zähmung des Tool-Prior-Paradoxons für paralleles Tool-Use in agenticem Video-Reinforcement-Learning
Zuhao Yang Kaichen Zhang Sudong Wang Keming Wu Zhongyu Yang Bo Li Xiaojuan Qi Shijian Lu Xingxuan Li Lidong Bing
Zusammenfassung
Titel: [Kein Titel angegeben]Zusammenfassung: Das Training großer multimodaler Modelle (LMMs) mittels Verstärkungslernen (RL), um Video-Verarbeitungswerkzeuge (z. B. Zuschneiden) nativ aufzurufen, hat sich als vielversprechender Ansatz für das Verständnis langer Videos erwiesen. Bestehende native RL-Methoden senden jedoch Werkzeugaufrufe sequenziell (d. h. einen pro Schritt) aus: Ein einzelner falscher Zuschnitt propagiert Fehler ohne Korrektur durch parallele Aufrufe, mehrstufige Werkzeugaufrufe verfälschen den Kontext, und die Inferenzkosten skalieren linear mit der Anzahl der Schritte. Wir stellen ParaVT vor, das erste end-to-end mittels RL trainierte Multi-Agenten-Framework für parallele Video-Werkzeugaufrufe, das mehrere Zeitfenster-Zuschnitte in einem einzigen Schritt ausführt, um einen saubereren Kontext und eine bessere Fehlertoleranz zu gewährleisten. Die Anwendung von Standard-RL auf ParaVT offenbart jedoch ein Hindernis, das wir als „Tool Prior Paradox“ bezeichnen: Die vortrainierten Werkzeug-Priors, die die Werkzeug-Erkundung ermöglichen, destabilisieren auch die bei Kaltstart strukturell vorgegebene Formatierung und offenbaren den Shortcut der „Tool-Skip-Belohnung“ unter Temperatur-Sampling. Ein modellübergreifender Vergleich mit einem schwächeren Prior-LMM stützt diese Behauptung: Das Format bleibt stabil, doch RL löst keine Werkzeugaufrufe aus, was darauf hindeutet, dass die Stärke des Priors der gemeinsame Treiber sowohl für den Zusammenbruch des Formats als auch für die Werkzeug-Erkundung ist. Wir schlagen PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO) vor, das Standard-RL um zwei ergänzende Mechanismen erweitert: (i) eine gezielte Format-Belohnung, die ausschließlich an den strukturellen Token-Positionen angewendet wird, die am anfälligsten für Zusammenbrüche sind, und (ii) eine pro Prompt zufällige Variation des Rahmenbudgets, die Trainings-Prompts erzeugt, bei denen der Aufruf des Werkzeugs ein messbares Belohnungssignal im Vergleich zum Überspringen desselben liefert. Über sechs Benchmarks zum Verständnis langer Videos hinweg verbessert ParaVT die Qwen3-VL-Baseline im Durchschnitt um +7,9 %, wobei PARA-GRPO die Formatkonformität während des Trainings von 0,13 auf 0,64 steigert. Da Werkzeugfähigkeiten in modernen LMMs zunehmend internalisiert werden, muss RL mit den daraus resultierenden Priors kooperieren, und ParaVT bietet ein allgemeines Rezept für agentic RL. Code, Daten und Modellgewichte sind öffentlich verfügbar.