HyperAIHyperAI
il y a 2 mois

Un solveur neuronal géométrique multi-modal avec des clauses textuelles extraites du diagramme

Ming-Liang Zhang; Fei Yin; Cheng-Lin Liu
Un solveur neuronal géométrique multi-modal avec des clauses textuelles extraites du diagramme
Résumé

La résolution de problèmes géométriques (GPS) est une forme avancée de raisonnement mathématique qui nécessite des capacités de fusion multi-modale et d'application des connaissances géométriques. Récemment, les solveurs neuronaux ont montré un grand potentiel dans le domaine de la GPS, mais ils restent encore limités en ce qui concerne la présentation des diagrammes et la fusion modale. Dans cette étude, nous convertissons les diagrammes en clauses textuelles de base pour décrire efficacement les caractéristiques des diagrammes, et proposons un nouveau solveur neuronal appelé PGPSNet pour fusionner l'information multi-modale de manière optimale. En combinant le pré-entraînement structurel et sémantique, l'augmentation de données et le décodage auto-limité, PGPSNet est doté d'une riche connaissance des théorèmes géométriques et des représentations géométriques, ce qui favorise ainsi la compréhension et le raisonnement géométrique. De plus, afin de faciliter la recherche en GPS, nous avons créé un nouveau jeu de données GPS à grande échelle et finement annoté nommé PGPS9K, labellisé avec une annotation diagrammatique fine-grainée et un programme de solution interprétable. Les expériences menées sur PGPS9K et sur un jeu de données existant, Geometry3K, valident la supériorité de notre méthode par rapport aux solveurs neuronaux les plus performants actuellement disponibles. Notre code source, notre jeu de données et nos documents annexes sont disponibles à l'adresse \url{https://github.com/mingliangzhang2018/PGPS}.