VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

L’apprentissage par renforcement s’est avéré efficace pour améliorer les capacités de raisonnement des grands modèles linguistiques. Des recherches récentes ont progressivement étendu ce paradigme aux tâches de raisonnement multimodal. En raison de la complexité intrinsèque et de la diversité des tâches multimodales, notamment en termes de contenu sémantique et de formulation des problèmes, les modèles existants présentent souvent des performances instables à travers différents domaines et niveaux de difficulté. Pour remédier à ces limites, nous proposons VL-Cogito, un modèle avancé de raisonnement multimodal entraîné selon un nouveau cadre d’apprentissage par renforcement par curriculum progressif en plusieurs étapes (PCuRL). Ce cadre guide systématiquement le modèle à travers des tâches de difficulté croissante, améliorant considérablement ses capacités de raisonnement dans divers contextes multimodaux. Le cadre introduit deux innovations clés : (1) un mécanisme d’ajustement dynamique du poids de difficulté en ligne, qui adapte de manière continue la difficulté d’entraînement au cours des différentes étapes d’apprentissage par renforcement ; et (2) un mécanisme de récompense adaptatif en fonction de la longueur du chemin de raisonnement, qui incite le modèle à ajuster de manière adaptative la longueur de son processus de raisonnement en fonction de la complexité de la tâche, équilibrant ainsi efficacité et exactitude du raisonnement. Les évaluations expérimentales montrent que VL-Cogito atteint ou dépasse de manière constante les modèles existants axés sur le raisonnement sur les principales bases de données multimodales couvrant les domaines des mathématiques, des sciences, de la logique et de la compréhension générale, confirmant ainsi l’efficacité de notre approche.