vor 16 Tagen

Lernen durch Beheben: Lösen von Mathematikaufgaben mit schwacher Supervision

Yining Hong, Qing Li, Daniel Ciao, Siyuan Huang, Song-Chun Zhu

Abstract

Bisherige neuronale Löser für mathematische Textaufgaben (Math Word Problems, MWPs) werden vollständig überwacht gelernt und sind nicht in der Lage, vielfältige Lösungen zu generieren. In diesem Paper greifen wir dieses Problem an, indem wir ein schwach überwachtes Lernparadigma für MWPs einführen. Unser Ansatz erfordert lediglich die Annotationen der endgültigen Antworten und ermöglicht die Generierung verschiedener Lösungen für eine einzelne Aufgabe. Um das schwach überwachte Lernen zu verbessern, schlagen wir einen neuartigen Learning-by-Fixing (LBF)-Rahmen vor, der die Fehlinterpretationen des neuronalen Netzwerks durch symbolische Reasoning korrigiert. Konkret propagiert die Korrektur-Mechanismus den Fehler von der Wurzelknoten zu den Blattknoten des fehlerhaften Lösungsbaums und leitet die wahrscheinlichste Korrektur ab, die ausgeführt werden kann, um die gewünschte Lösung zu erreichen. Um eine größere Vielfalt an Lösungen zu generieren, wird Baum-Regularisierung eingesetzt, um die effiziente Verkleinerung und Exploration des Lösungsraums zu leiten, und ein Speicherpuffer wird entworfen, um die entdeckten verschiedenen Korrekturen für jede Aufgabe zu verfolgen und zu speichern. Experimentelle Ergebnisse auf dem Math23K-Datensatz zeigen, dass der vorgeschlagene LBF-Rahmen in schwach überwachtem Lernen signifikant besser abschneidet als Reinforcement-Learning-Baselines. Darüber hinaus erreicht er vergleichbare Top-1-Genauigkeiten und deutlich bessere Top-3/Top-5-Antwortgenauigkeiten im Vergleich zu vollständig überwachten Methoden, was seine Stärke bei der Generierung vielfältiger Lösungen unterstreicht.