HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 6 jours

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Résumé

Le fine-tuning par renforcement (RFT), cadre en deux étapes composé d’un fine-tuning supervisé (SFT) et d’un apprentissage par renforcement (RL), a montré des résultats prometteurs dans l’amélioration de la capacité de raisonnement des grands modèles linguistiques (LLM). Toutefois, son extension aux grands modèles vidéo-langage (LVLM) reste un défi. Nous proposons VideoP2R, un cadre novateur de RFT vidéo conscient des processus, qui améliore le raisonnement vidéo en modélisant la perception et le raisonnement comme des processus distincts. Dans la phase SFT, nous développons une pipeline en trois étapes pour générer VideoP2R-CoT-162K, un jeu de données de haute qualité, conscient des processus, basé sur une chaîne de raisonnement (CoT) pour la perception et le raisonnement. Dans la phase RL, nous introduisons un nouvel algorithme d’optimisation politique relative par groupe conscient des processus (PA-GRPO), qui fournit des récompenses distinctes pour la perception et le raisonnement. Des expériences étendues montrent que VideoP2R atteint des performances de pointe (SotA) sur six des sept benchmarks de raisonnement et de compréhension vidéo. Des études d’ablation confirment en outre l’efficacité de notre modélisation consciente des processus et de l’algorithme PA-GRPO, et démontrent que la sortie de perception du modèle est suffisamment informative pour le raisonnement ultérieur.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VIDEOP2R : Compréhension vidéo de la perception au raisonnement | Articles de recherche | HyperAI