il y a 3 mois

Résumé

Le fine-tuning par renforcement (RFT), cadre en deux étapes composé d’un fine-tuning supervisé (SFT) et d’un apprentissage par renforcement (RL), a montré des résultats prometteurs dans l’amélioration de la capacité de raisonnement des grands modèles linguistiques (LLM). Toutefois, son extension aux grands modèles vidéo-langage (LVLM) reste un défi. Nous proposons VideoP2R, un cadre novateur de RFT vidéo conscient des processus, qui améliore le raisonnement vidéo en modélisant la perception et le raisonnement comme des processus distincts. Dans la phase SFT, nous développons une pipeline en trois étapes pour générer VideoP2R-CoT-162K, un jeu de données de haute qualité, conscient des processus, basé sur une chaîne de raisonnement (CoT) pour la perception et le raisonnement. Dans la phase RL, nous introduisons un nouvel algorithme d’optimisation politique relative par groupe conscient des processus (PA-GRPO), qui fournit des récompenses distinctes pour la perception et le raisonnement. Des expériences étendues montrent que VideoP2R atteint des performances de pointe (SotA) sur six des sept benchmarks de raisonnement et de compréhension vidéo. Des études d’ablation confirment en outre l’efficacité de notre modélisation consciente des processus et de l’algorithme PA-GRPO, et démontrent que la sortie de perception du modèle est suffisamment informative pour le raisonnement ultérieur.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Compréhension Vidéo

Représentation Multimodale

Reasoning

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Compréhension Vidéo

Représentation Multimodale

Reasoning

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters