HyperAIHyperAI
il y a 17 jours

GeoQA : Un benchmark de résolution de questions géométriques visant le raisonnement numérique multimodal

Jiaqi Chen, Jianheng Tang, Jinghui Qin, Xiaodan Liang, Lingbo Liu, Eric P. Xing, Liang Lin
GeoQA : Un benchmark de résolution de questions géométriques visant le raisonnement numérique multimodal
Résumé

La résolution automatique de problèmes mathématiques a récemment suscité un intérêt croissant en tant que référence fondamentale pour l’intelligence artificielle. Dans cet article, nous nous concentrons sur la résolution de problèmes géométriques, qui exige une compréhension approfondie des descriptions textuelles, des schémas visuels et des connaissances théoriques. Toutefois, les méthodes existantes reposaient fortement sur des règles manuelles et étaient évaluées uniquement sur des jeux de données de petite taille. Ainsi, nous proposons un nouveau jeu de données pour la résolution de questions géométriques, appelé GeoQA, comprenant 4 998 problèmes géométriques accompagnés de programmes annotés, illustrant les étapes de résolution des problèmes posés. En comparaison avec un autre jeu de données publique, GeoS, GeoQA est 25 fois plus volumineux, et les annotations de programmes offrent un cadre expérimental concret pour les recherches futures sur le raisonnement numérique explicite et interprétable. Par ailleurs, nous introduisons un solveur géométrique neuronal (Neural Geometric Solver, NGS), capable de traiter les problèmes géométriques en analysant de manière intégrée des informations multimodales et en générant des programmes interprétables. Nous ajoutons également plusieurs tâches d’auto-supervision auxiliaires au modèle NGS afin d’améliorer la représentation sémantique entre modalités. Des expériences étendues sur GeoQA confirment l’efficacité de notre modèle NGS ainsi que de ces tâches auxiliaires. Toutefois, les performances restent significativement inférieures à celles des humains, laissant une large marge pour des recherches futures. Notre benchmark et le code source sont disponibles à l’adresse suivante : https://github.com/chen-judge/GeoQA.