Command Palette
Search for a command to run...
ParaVT : Dompter le paradoxe de l'antériorité des outils pour l'utilisation parallèle des outils dans l'apprentissage par renforcement vidéo agentique
ParaVT : Dompter le paradoxe de l'antériorité des outils pour l'utilisation parallèle des outils dans l'apprentissage par renforcement vidéo agentique
Zuhao Yang Kaichen Zhang Sudong Wang Keming Wu Zhongyu Yang Bo Li Xiaojuan Qi Shijian Lu Xingxuan Li Lidong Bing
Résumé
L’entraînement de grands modèles multimodaux (LMM) par apprentissage par renforcement (RL) afin d’invoquer nativement des outils de traitement vidéo (par exemple, le recadrage) s’avère une voie prometteuse pour la compréhension de vidéos longues. Cependant, les méthodes existantes d’apprentissage par renforcement natif dispatchent les appels d’outils de manière séquentielle (c’est-à-dire un par tour) : un seul recadrage erroné propage des erreurs sans correction par les pairs, les appels d’outils sur plusieurs tours corrompent le contexte, et le coût d’inférence augmente linéairement avec le nombre de tours. Nous présentons ParaVT, le premier cadre d’apprentissage par renforcement de bout en bout multi-agents pour l’appel parallèle d’outils vidéo, qui dispatche plusieurs recadrages de fenêtres temporelles en un seul tour, permettant ainsi un contexte plus propre et une meilleure tolérance aux pannes. Toutefois, l’application de l’apprentissage par renforcement standard à ParaVT révèle un obstacle que nous qualifions de paradoxe du prior d’outil : les priors d’outils pré-entraînés qui permettent l’exploration des outils déstabilisent également le format structurel au démarrage à froid et exposent le raccourci de récompense de saut d’outil lors de l’échantillonnage par température. Une comparaison inter-modèles sur un LMM à prior plus faible étaye cette affirmation : le format reste stable, mais l’apprentissage par renforcement génère zéro appel d’outil, indiquant que la force du prior est le moteur commun de l’effondrement du format et de l’exploration des outils. Nous proposons PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO), qui enrichit l’apprentissage par renforcement standard de deux mécanismes complémentaires : (i) une récompense de format ciblée appliquée uniquement aux positions des tokens structurels les plus susceptibles de s’effondrer, et (ii) une randomisation du budget d’images par prompt qui crée des prompts d’entraînement où l’appel de l’outil génère un signal de récompense mesurable par rapport à son saut. Sur six benchmarks de compréhension de vidéos longues, ParaVT améliore la baseline Qwen3-VL de +7,9 % en moyenne, avec PARA-GRPO faisant passer la conformité du format pendant l’entraînement de 0,13 à 0,64. À mesure que les capacités d’outils deviennent de plus en plus internalisées dans les LMM modernes, l’apprentissage par renforcement doit coopérer avec les priors qui en résultent, et ParaVT offre une recette générale pour l’apprentissage par renforcement agentic. Le code, les données et les poids du modèle sont publiquement disponibles.