il y a 4 mois

Résumé

Les modèles linguistiques à grande échelle multimodaux présentent de nombreuses applications pratiques exigeant des capacités de raisonnement avancées. Malgré les progrès récents, ces modèles peinent encore à résoudre des problèmes géométriques complexes. Un obstacle majeur provient du manque de jeux de données de haute qualité comprenant des paires image-texte adaptés à la compréhension des images géométriques. En outre, la plupart des pipelines de synthèse de données basés sur des modèles préétablis échouent généralement à généraliser à des questions situées au-delà de leurs templates prédéfinis. Dans cet article, nous comblons cette lacune en intégrant un processus complémentaire d’apprentissage par renforcement avec récompenses vérifiables (RLVR, Reinforcement Learning with Verifiable Rewards) dans la chaîne de génération de données. En exploitant le RLVR pour affiner les légendes d’images géométriques synthétisées à partir de 50 relations géométriques fondamentales, et en utilisant des signaux de récompense issus de tâches de résolution de problèmes mathématiques, notre pipeline parvient efficacement à capturer les caractéristiques clés liées à la résolution de problèmes géométriques. Cela permet une meilleure généralisation des tâches et conduit à des améliorations significatives. De plus, même dans des scénarios hors distribution, le jeu de données généré renforce les capacités de raisonnement général des modèles linguistiques multimodaux : une amélioration de 2,8 % à 4,8 % est observée sur des tâches statistiques, arithmétiques, algébriques et numériques, utilisant des images non géométriques issues de MathVista et MathVerse, ainsi qu’une progression de 2,4 % à 3,9 % sur des tâches d’art, de conception, de technologie et d’ingénierie dans le cadre du benchmark MMMU.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Décrivain D'image

Multimodal

Réponse À Des Questions Visuelles

Multimodal

Tâche

Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Résumé

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Décrivain D'image

Multimodal

Réponse À Des Questions Visuelles

Multimodal

Tâche

Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Résumé

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Synthèse de légendes d'images géométriques généralisables

Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Synthèse de légendes d'images géométriques généralisables

Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Synthèse de légendes d'images géométriques généralisables

Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters