HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

Résumé

Voici la traduction du texte en français, respectant le style formel et la terminologie propre au domaine technologique et académique :Les avancées récentes dans le domaine des grands modèles de raisonnement ont suscité un intérêt croissant pour l'extension de ces capacités aux domaines multimodaux. Cependant, malgré des progrès notables en matière de raisonnement visuel, le manque de transparence et de reproductibilité dans la curation des données et les stratégies d'entraînement demeure un obstacle majeur pour la recherche à grande échelle. Dans ces travaux, nous présentons OpenMMReasoner, un protocole entièrement transparent en deux étapes pour le raisonnement multimodal, couvrant le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL). Lors de la phase SFT, nous construisons un jeu de données de « démarrage à froid » (cold-start) de 874 000 échantillons associés à une validation rigoureuse étape par étape, fournissant ainsi une base solide pour les capacités de raisonnement. La phase ultérieure de RL exploite un jeu de données de 74 000 échantillons couvrant divers domaines pour affiner et stabiliser davantage ces compétences, aboutissant à un processus d'apprentissage plus robuste et plus efficace. Des évaluations approfondies démontrent que notre méthode d'entraînement non seulement surpasse des modèles de référence solides, mais met également en lumière le rôle critique de la qualité des données et de la conception de l'entraînement dans le façonnement des performances de raisonnement multimodal. Notamment, notre méthode permet une amélioration de 11,6 % par rapport au modèle de référence Qwen2.5-VL-7B-Instruct sur neuf bancs d'essai de raisonnement multimodal, établissant ainsi une base empirique solide pour les futures recherches en raisonnement multimodal à grande échelle. Nous avons rendu accessibles en open source l'ensemble de nos codes, notre pipeline et nos données à l'adresse suivante : https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp