GeoQA: Ein geometrisches Frage-Antwort-Testfeld für multimodale numerische Schlussfolgerung

Die automatische Lösung mathematischer Probleme hat in letzter Zeit zunehmende Aufmerksamkeit als langfristiger AI-Benchmark erfahren. In diesem Paper konzentrieren wir uns auf die Lösung geometrischer Aufgaben, die ein umfassendes Verständnis von Textbeschreibungen, visuellen Diagrammen und theorematischem Wissen erfordert. Bisherige Ansätze waren jedoch stark von handgefertigten Regeln abhängig und wurden lediglich an kleinskaligen Datensätzen evaluiert. Daher stellen wir einen neuen Datensatz für geometrische Fragebeantwortung, GeoQA, vor, der 4.998 geometrische Aufgaben mit entsprechenden annotierten Programmen enthält, die den Lösungsprozess der jeweiligen Probleme veranschaulichen. Im Vergleich zu einem anderen öffentlich verfügbaren Datensatz, GeoS, ist GeoQA 25-mal größer, wobei die Programmannotierungen eine praktische Testumgebung für zukünftige Forschung zu expliziter und nachvollziehbarer numerischer Schlussfolgerung bieten. Zudem führen wir einen Neuralen Geometrischen Solver (NGS) ein, der geometrische Probleme durch umfassende Analyse multimodaler Informationen und die Generierung interpretierbarer Programme löst. Wir ergänzen NGS außerdem um mehrere selbstüberwachte Hilfsaufgaben, um die semantische Repräsentation über Modalitäten hinweg zu verbessern. Umfangreiche Experimente auf GeoQA bestätigen die Wirksamkeit unseres vorgeschlagenen NGS sowie der Hilfsaufgaben. Dennoch liegen die Ergebnisse deutlich unter der menschlichen Leistung, was erheblichen Forschungsbedarf für zukünftige Arbeiten offenlegt. Unser Benchmark und der zugehörige Code sind unter https://github.com/chen-judge/GeoQA veröffentlicht.