UniGeo : Unification de la Raisonnement Logique Géométrique par la Réformulation des Expressions Mathématiques

La résolution de problèmes géométriques est une plateforme de test bien reconnue pour évaluer la capacité de raisonnement multimodal de haut niveau des modèles profonds. Dans la plupart des travaux existants, deux types principaux de problèmes géométriques : le calcul et la démonstration, sont généralement traités comme deux tâches spécifiques, ce qui entrave l'unification de la capacité de raisonnement d'un modèle profond sur plusieurs tâches mathématiques. Cependant, en essence, ces deux tâches présentent des représentations de problèmes similaires et des connaissances mathématiques superposées, ce qui peut améliorer la compréhension et la capacité de raisonnement d'un modèle profond sur les deux tâches.Ainsi, nous avons construit un grand banc d'essai unifié pour les problèmes géométriques, appelé UniGeo, qui contient 4 998 problèmes de calcul et 9 543 problèmes de démonstration. Chaque problème de démonstration est annoté avec une preuve en plusieurs étapes comprenant des raisons et des expressions mathématiques. Cette preuve peut être facilement reformulée sous forme d'une séquence de démonstration partageant les mêmes formats que la séquence annotée du programme pour les problèmes de calcul. Naturellement, nous présentons également un cadre unifié multi-tâches basé sur le transformateur géométrique, appelé Geoformer, capable de traiter simultanément les problèmes de calcul et de démonstration sous forme de génération de séquences. Ce cadre montre finalement que la capacité de raisonnement peut être améliorée sur les deux tâches grâce à l'unification des formulations.De plus, nous proposons une méthode d'pré-entraînement sur les expressions mathématiques (MEP) visant à prédire les expressions mathématiques dans la solution du problème, améliorant ainsi le modèle Geoformer. Les expériences menées sur UniGeo démontrent que notre Geoformer proposé obtient des performances d'état de l'art en surpassant le modèle spécifique à la tâche NGS avec plus de 5,6 % et 3,2 % d'amélioration en termes d'exactitude pour les problèmes de calcul et de démonstration respectivement.