HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Synthèse de légendes d'images géométriques généralisables

Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Synthèse de légendes d'images géométriques généralisables

Résumé

Les modèles linguistiques à grande échelle multimodaux présentent de nombreuses applications pratiques exigeant des capacités de raisonnement avancées. Malgré les progrès récents, ces modèles peinent encore à résoudre des problèmes géométriques complexes. Un obstacle majeur provient du manque de jeux de données de haute qualité comprenant des paires image-texte adaptés à la compréhension des images géométriques. En outre, la plupart des pipelines de synthèse de données basés sur des modèles préétablis échouent généralement à généraliser à des questions situées au-delà de leurs templates prédéfinis. Dans cet article, nous comblons cette lacune en intégrant un processus complémentaire d’apprentissage par renforcement avec récompenses vérifiables (RLVR, Reinforcement Learning with Verifiable Rewards) dans la chaîne de génération de données. En exploitant le RLVR pour affiner les légendes d’images géométriques synthétisées à partir de 50 relations géométriques fondamentales, et en utilisant des signaux de récompense issus de tâches de résolution de problèmes mathématiques, notre pipeline parvient efficacement à capturer les caractéristiques clés liées à la résolution de problèmes géométriques. Cela permet une meilleure généralisation des tâches et conduit à des améliorations significatives. De plus, même dans des scénarios hors distribution, le jeu de données généré renforce les capacités de raisonnement général des modèles linguistiques multimodaux : une amélioration de 2,8 % à 4,8 % est observée sur des tâches statistiques, arithmétiques, algébriques et numériques, utilisant des images non géométriques issues de MathVista et MathVerse, ainsi qu’une progression de 2,4 % à 3,9 % sur des tâches d’art, de conception, de technologie et d’ingénierie dans le cadre du benchmark MMMU.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Synthèse de légendes d'images géométriques généralisables | Articles de recherche | HyperAI