HyperAIHyperAI
vor 2 Monaten

Ein mehrmodaler neuronaler geometrischer Solver mit aus dem Diagramm analysierten textuellen Klauseln

Ming-Liang Zhang; Fei Yin; Cheng-Lin Liu
Ein mehrmodaler neuronaler geometrischer Solver mit aus dem Diagramm analysierten textuellen Klauseln
Abstract

Die Lösung von Geometrieaufgaben (GPS) erfordert eine hochentwickelte mathematische Denkfähigkeit, die die Kapazitäten der multimodalen Fusion und der Anwendung geometrischen Wissens umfasst. Kürzlich haben neurale Löser großes Potenzial in GPS gezeigt, aber noch Schwächen bei der Darstellung von Diagrammen und der modalen Fusion aufgewiesen. In dieser Arbeit konvertieren wir Diagramme in grundlegende textuelle Klauseln, um die Merkmale von Diagrammen effektiv zu beschreiben, und schlagen einen neuen neuronalen Löser namens PGPSNet vor, der multimodale Informationen effizient fusioniert. Durch die Kombination struktureller und semantischer Vorabtrainings, Datenverstärkung und selbstbegrenztes Decoding wird PGPSNet mit umfangreichem Wissen über geometrische Sätze und geometrische Darstellungen ausgestattet, was das geometrische Verständnis und Schließen fördert. Zudem erstellen wir, um die Forschung im Bereich GPS zu erleichtern, einen neuen großen und detailliert annotierten GPS-Datensatz namens PGPS9K, der sowohl mit feingranularen Diagrammanotations als auch mit interpretierbaren Lösungsprogrammen versehen ist. Experimente anhand des PGPS9K-Datensatzes sowie eines bestehenden Datensatzes namens Geometry3K bestätigen die Überlegenheit unserer Methode gegenüber den besten aktuellen neuronalen Lösern. Unser Code, Datensatz und Anhangsmaterialien sind unter \url{https://github.com/mingliangzhang2018/PGPS} verfügbar.

Ein mehrmodaler neuronaler geometrischer Solver mit aus dem Diagramm analysierten textuellen Klauseln | Neueste Forschungsarbeiten | HyperAI