
要約
数学文章問題の解決は、人間の言語的表現をモデルがどのように捉えるか、すなわち「視点」に大きく依存する。現実世界の状況では、同じ数学的操作が多様な形で用いられるため、このようなアプローチの重要性はさらに高まる。従来の研究は、訓練例における情報量が限定されている状況下でも、予測戦略の制限によって思考プロセスの選択肢を狭め、数学的知識の獲得におけるその意義を十分に考慮していない。本研究では、神経ネットワークの伝搬形態として人間の思考拡張メカニズムを模倣することで、現実世界における課題に対処するためのAttentionベースのTHought Expansion Network Architecture(ATHENA)を提案する。ATHENAは、前のステップから導かれる可能性のある数学的表現の思考を含む候補を反復的に生成し、目標に至る有効な経路を選択することで、妥当な思考を導出する。実験の結果、ATHENAは訓練例の情報量が限られている状況下でも、多様な問題に対して優れた性能を発揮し、理想的なモデルに近づく新たな最先端の成果を達成した。