il y a 3 mois

Résumé

Voici la traduction du texte en français, respectant le style formel et la terminologie propre au domaine technologique et académique :Les avancées récentes dans le domaine des grands modèles de raisonnement ont suscité un intérêt croissant pour l'extension de ces capacités aux domaines multimodaux. Cependant, malgré des progrès notables en matière de raisonnement visuel, le manque de transparence et de reproductibilité dans la curation des données et les stratégies d'entraînement demeure un obstacle majeur pour la recherche à grande échelle. Dans ces travaux, nous présentons OpenMMReasoner, un protocole entièrement transparent en deux étapes pour le raisonnement multimodal, couvrant le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL). Lors de la phase SFT, nous construisons un jeu de données de « démarrage à froid » (cold-start) de 874 000 échantillons associés à une validation rigoureuse étape par étape, fournissant ainsi une base solide pour les capacités de raisonnement. La phase ultérieure de RL exploite un jeu de données de 74 000 échantillons couvrant divers domaines pour affiner et stabiliser davantage ces compétences, aboutissant à un processus d'apprentissage plus robuste et plus efficace. Des évaluations approfondies démontrent que notre méthode d'entraînement non seulement surpasse des modèles de référence solides, mais met également en lumière le rôle critique de la qualité des données et de la conception de l'entraînement dans le façonnement des performances de raisonnement multimodal. Notamment, notre méthode permet une amélioration de 11,6 % par rapport au modèle de référence Qwen2.5-VL-7B-Instruct sur neuf bancs d'essai de raisonnement multimodal, établissant ainsi une base empirique solide pour les futures recherches en raisonnement multimodal à grande échelle. Nous avons rendu accessibles en open source l'ensemble de nos codes, notre pipeline et nos données à l'adresse suivante : https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale | Articles | HyperAI

Command Palette

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

OpenMMReasoner : Repousser les frontières du raisonnement multimodal grâce à une méthode ouverte et générale

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters