Command Palette
Search for a command to run...
Synthèse de légendes d'images géométriques généralisables
Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Résumé
Les modèles linguistiques à grande échelle multimodaux présentent de nombreuses applications pratiques exigeant des capacités de raisonnement avancées. Malgré les progrès récents, ces modèles peinent encore à résoudre des problèmes géométriques complexes. Un obstacle majeur provient du manque de jeux de données de haute qualité comprenant des paires image-texte adaptés à la compréhension des images géométriques. En outre, la plupart des pipelines de synthèse de données basés sur des modèles préétablis échouent généralement à généraliser à des questions situées au-delà de leurs templates prédéfinis. Dans cet article, nous comblons cette lacune en intégrant un processus complémentaire d’apprentissage par renforcement avec récompenses vérifiables (RLVR, Reinforcement Learning with Verifiable Rewards) dans la chaîne de génération de données. En exploitant le RLVR pour affiner les légendes d’images géométriques synthétisées à partir de 50 relations géométriques fondamentales, et en utilisant des signaux de récompense issus de tâches de résolution de problèmes mathématiques, notre pipeline parvient efficacement à capturer les caractéristiques clés liées à la résolution de problèmes géométriques. Cela permet une meilleure généralisation des tâches et conduit à des améliorations significatives. De plus, même dans des scénarios hors distribution, le jeu de données généré renforce les capacités de raisonnement général des modèles linguistiques multimodaux : une amélioration de 2,8 % à 4,8 % est observée sur des tâches statistiques, arithmétiques, algébriques et numériques, utilisant des images non géométriques issues de MathVista et MathVerse, ainsi qu’une progression de 2,4 % à 3,9 % sur des tâches d’art, de conception, de technologie et d’ingénierie dans le cadre du benchmark MMMU.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.