
要約
代数的文章問題の解法は、近年自然言語処理の重要なタスクとして注目されている。このような問題を解くため、最近の研究では、入出力の単位として「演算子/被演算子(Op: operator/operand)」トークンを用いるニューラルモデルが提案されている。しかしながら、こうしたニューラルモデルは、2つの課題に直面していた。すなわち、式の断片化(expression fragmentation)と被演算子と文脈の分離(operand-context separation)である。これらの課題に対処するために、本研究では、(1)「式(Expression)」トークンと(2)被演算子文脈ポインタ(operand-context pointers)を用いる純粋なニューラルモデル、Expression-Pointer Transformer(EPT)を提案する。EPTモデルの性能は、ALG514、DRAW-1K、MAWPSの3つのデータセット上で評価された。既存の最先端(SoTA)モデルと比較して、EPTモデルは各データセットで同等の精度を達成した。具体的には、ALG514で81.3%、DRAW-1Kで59.5%、MAWPSで84.5%の正解率を記録した。本論文の貢献は以下の2点に集約される。(1)式の断片化と被演算子・文脈の分離を同時に解決可能な純粋なニューラルモデルEPTを提案した。(2)手作業で設計された特徴量を一切用いない完全自動のEPTモデルは、従来の手作業特徴量を用いるモデルと同等の性能を発揮し、既存の純粋ニューラルモデルと比較して最大40%の性能向上を達成した。