HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

R-4B : Inciter la capacité auto-réfléchissante générale dans les MLLMs par recuit bi-mode et apprentissage par renforcement

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

R-4B : Inciter la capacité auto-réfléchissante générale dans les MLLMs par recuit bi-mode et apprentissage par renforcement

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) dotés de capacités de raisonnement étape par étape ont démontré des performances remarquables sur des problèmes complexes nécessitant un raisonnement approfondi. Toutefois, ce processus de réflexion s’avère redondant pour des problèmes simples pouvant être résolus sans raisonnement complexe. Pour pallier cette inefficacité, nous proposons R-4B, un MLLM à réflexion auto-adaptative, capable de décider de manière dynamique, selon la complexité du problème, s’il doit ou non engager un processus de réflexion. L’idée centrale de R-4B consiste à doter le modèle de deux capacités : celle de réfléchir et celle de ne pas réfléchir, en utilisant une méthode d’annealing bi-mode, et à appliquer une optimisation de politique bi-mode (BPO) afin d’améliorer la précision du modèle dans la décision d’activation ou non du processus de réflexion. Plus précisément, nous entraînons d’abord le modèle sur un jeu de données soigneusement sélectionné couvrant divers sujets, comprenant des exemples provenant à la fois des modes « réflexion » et « non-réflexion ». Une deuxième phase d’entraînement est ensuite menée dans un cadre amélioré de GRPO, durant laquelle le modèle est contraint de générer des réponses à partir des deux modes pour chaque requête d’entrée. Les résultats expérimentaux montrent que R-4B atteint des performances de pointe sur 25 benchmarks exigeants. Il surpasser Qwen2.5-VL-7B sur la majorité des tâches, tout en atteignant une performance comparable à celle de modèles plus volumineux, tels que Kimi-VL-A3B-Thinking-2506 (16B), sur les benchmarks fortement centrés sur le raisonnement, avec un coût computationnel plus faible.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp