il y a 6 mois

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei

Résumé

L’apprentissage par renforcement s’est avéré efficace pour améliorer les capacités de raisonnement des grands modèles linguistiques. Des recherches récentes ont progressivement étendu ce paradigme aux tâches de raisonnement multimodal. En raison de la complexité intrinsèque et de la diversité des tâches multimodales, notamment en termes de contenu sémantique et de formulation des problèmes, les modèles existants présentent souvent des performances instables à travers différents domaines et niveaux de difficulté. Pour remédier à ces limites, nous proposons VL-Cogito, un modèle avancé de raisonnement multimodal entraîné selon un nouveau cadre d’apprentissage par renforcement par curriculum progressif en plusieurs étapes (PCuRL). Ce cadre guide systématiquement le modèle à travers des tâches de difficulté croissante, améliorant considérablement ses capacités de raisonnement dans divers contextes multimodaux. Le cadre introduit deux innovations clés : (1) un mécanisme d’ajustement dynamique du poids de difficulté en ligne, qui adapte de manière continue la difficulté d’entraînement au cours des différentes étapes d’apprentissage par renforcement ; et (2) un mécanisme de récompense adaptatif en fonction de la longueur du chemin de raisonnement, qui incite le modèle à ajuster de manière adaptative la longueur de son processus de raisonnement en fonction de la complexité de la tâche, équilibrant ainsi efficacité et exactitude du raisonnement. Les évaluations expérimentales montrent que VL-Cogito atteint ou dépasse de manière constante les modèles existants axés sur le raisonnement sur les principales bases de données multimodales couvrant les domaines des mathématiques, des sciences, de la logique et de la compréhension générale, confirmant ainsi l’efficacité de notre approche.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Apprentissage Par Renforcement

Reasoning

LLM

Approche/Framework

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Apprentissage Par Renforcement

Reasoning

LLM

Approche/Framework

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei