Command Palette
Search for a command to run...
OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale
Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

Résumé
Voici la traduction du texte en français, respectant le style formel et la terminologie propre au domaine technologique et académique :Les avancées récentes dans le domaine des grands modèles de raisonnement ont suscité un intérêt croissant pour l'extension de ces capacités aux domaines multimodaux. Cependant, malgré des progrès notables en matière de raisonnement visuel, le manque de transparence et de reproductibilité dans la curation des données et les stratégies d'entraînement demeure un obstacle majeur pour la recherche à grande échelle. Dans ces travaux, nous présentons OpenMMReasoner, un protocole entièrement transparent en deux étapes pour le raisonnement multimodal, couvrant le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL). Lors de la phase SFT, nous construisons un jeu de données de « démarrage à froid » (cold-start) de 874 000 échantillons associés à une validation rigoureuse étape par étape, fournissant ainsi une base solide pour les capacités de raisonnement. La phase ultérieure de RL exploite un jeu de données de 74 000 échantillons couvrant divers domaines pour affiner et stabiliser davantage ces compétences, aboutissant à un processus d'apprentissage plus robuste et plus efficace. Des évaluations approfondies démontrent que notre méthode d'entraînement non seulement surpasse des modèles de référence solides, mais met également en lumière le rôle critique de la qualité des données et de la conception de l'entraînement dans le façonnement des performances de raisonnement multimodal. Notamment, notre méthode permet une amélioration de 11,6 % par rapport au modèle de référence Qwen2.5-VL-7B-Instruct sur neuf bancs d'essai de raisonnement multimodal, établissant ainsi une base empirique solide pour les futures recherches en raisonnement multimodal à grande échelle. Nous avons rendu accessibles en open source l'ensemble de nos codes, notre pipeline et nos données à l'adresse suivante : https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.