HyperAIHyperAI

Command Palette

Search for a command to run...

VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

Résumé

L’apprentissage par renforcement s’est avéré efficace pour améliorer les capacités de raisonnement des grands modèles linguistiques. Des recherches récentes ont progressivement étendu ce paradigme aux tâches de raisonnement multimodal. En raison de la complexité intrinsèque et de la diversité des tâches multimodales, notamment en termes de contenu sémantique et de formulation des problèmes, les modèles existants présentent souvent des performances instables à travers différents domaines et niveaux de difficulté. Pour remédier à ces limites, nous proposons VL-Cogito, un modèle avancé de raisonnement multimodal entraîné selon un nouveau cadre d’apprentissage par renforcement par curriculum progressif en plusieurs étapes (PCuRL). Ce cadre guide systématiquement le modèle à travers des tâches de difficulté croissante, améliorant considérablement ses capacités de raisonnement dans divers contextes multimodaux. Le cadre introduit deux innovations clés : (1) un mécanisme d’ajustement dynamique du poids de difficulté en ligne, qui adapte de manière continue la difficulté d’entraînement au cours des différentes étapes d’apprentissage par renforcement ; et (2) un mécanisme de récompense adaptatif en fonction de la longueur du chemin de raisonnement, qui incite le modèle à ajuster de manière adaptative la longueur de son processus de raisonnement en fonction de la complexité de la tâche, équilibrant ainsi efficacité et exactitude du raisonnement. Les évaluations expérimentales montrent que VL-Cogito atteint ou dépasse de manière constante les modèles existants axés sur le raisonnement sur les principales bases de données multimodales couvrant les domaines des mathématiques, des sciences, de la logique et de la compréhension générale, confirmant ainsi l’efficacité de notre approche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp