HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 23 jours

MM-HELIX : Accroître le raisonnement réfléchi multimodal à longue chaîne grâce à une plateforme holistique et une optimisation adaptative de politique hybride

MM-HELIX : Accroître le raisonnement réfléchi multimodal à longue chaîne grâce à une plateforme holistique et une optimisation adaptative de politique hybride

Résumé

Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) actuels aient fait preuve d’une compétence notable dans des tâches de raisonnement telles que les mathématiques et la logique, leur capacité au raisonnement réfléchi en chaîne longue — une condition nécessaire à la résolution de problèmes complexes du monde réel — reste largement sous-explorée. Dans ce travail, nous menons d’abord une vaste investigation empirique afin d’évaluer cette capacité. En exploitant un moteur de synthèse de données soigneusement conçu, nous construisons MM-HELIX, un benchmark multimodal composé de 1 260 échantillons répartis sur 42 tâches synthétiques complexes, nécessitant un raisonnement itératif et des rétropédalages (backtracking). Les résultats empiriques obtenus sur ce benchmark révèlent que les MLLM existants présentent des déficits significatifs dans le raisonnement réfléchi en chaîne longue. Pour remédier à cette limitation, nous générons des données pour une phase de post-entraînement et explorons de nouveaux paradigmes d’apprentissage exploitant ces données. Nous développons tout d’abord une pipeline de génération de réponses par élicitation étape par étape (Step-Elicited Response Generation), permettant de créer MM-HELIX-100K, un jeu de données de grande taille (100 000 échantillons) comprenant des traces de raisonnement réfléchi de haute qualité, destinées à l’étape d’instruction-tuning. Étant donné que l’apprentissage par renforcement standard échoue sur des tâches complexes en raison de signaux de récompense rares et du phénomène de « oubli catastrophique » survenant après une fine-tuning supervisé, nous proposons une nouvelle stratégie d’entraînement, nommée Optimisation Hybride Adaptative de Politique (Adaptive Hybrid Policy Optimization, AHPO), qui unit dynamiquement la supervision hors ligne et l’optimisation en ligne en une seule phase. Cette stratégie permet au modèle d’apprendre à partir de données d’experts lorsque les récompenses sont rares, tout en pouvant mener une exploration indépendante une fois maîtrisée. Appliquée au modèle de base Qwen2.5-VL-7B, notre méthode obtient une amélioration de +18,6 % en précision sur le benchmark MM-HELIX, ainsi qu’une bonne généralisation, avec une augmentation moyenne de +5,7 % sur des tâches générales de mathématiques et de logique. Nos résultats démontrent qu’il est possible d’apprendre efficacement et de généraliser le raisonnement réfléchi dans les MLLM, ouvrant ainsi la voie au développement de modèles multimodaux plus performants.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MM-HELIX : Accroître le raisonnement réfléchi multimodal à longue chaîne grâce à une plateforme holistique et une optimisation adaptative de politique hybride | Articles de recherche | HyperAI