Command Palette
Search for a command to run...
VIDEOP2R : Compréhension vidéo de la perception au raisonnement
Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

Résumé
Le fine-tuning par renforcement (RFT), cadre en deux étapes composé d’un fine-tuning supervisé (SFT) et d’un apprentissage par renforcement (RL), a montré des résultats prometteurs dans l’amélioration de la capacité de raisonnement des grands modèles linguistiques (LLM). Toutefois, son extension aux grands modèles vidéo-langage (LVLM) reste un défi. Nous proposons VideoP2R, un cadre novateur de RFT vidéo conscient des processus, qui améliore le raisonnement vidéo en modélisant la perception et le raisonnement comme des processus distincts. Dans la phase SFT, nous développons une pipeline en trois étapes pour générer VideoP2R-CoT-162K, un jeu de données de haute qualité, conscient des processus, basé sur une chaîne de raisonnement (CoT) pour la perception et le raisonnement. Dans la phase RL, nous introduisons un nouvel algorithme d’optimisation politique relative par groupe conscient des processus (PA-GRPO), qui fournit des récompenses distinctes pour la perception et le raisonnement. Des expériences étendues montrent que VideoP2R atteint des performances de pointe (SotA) sur six des sept benchmarks de raisonnement et de compréhension vidéo. Des études d’ablation confirment en outre l’efficacité de notre modélisation consciente des processus et de l’algorithme PA-GRPO, et démontrent que la sortie de perception du modèle est suffisamment informative pour le raisonnement ultérieur.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.