要約
手書き数式(Handwritten Mathematical Expression, HME)の機械認識は、手書き記号の曖昧性および数式の二次元構造に起因する課題から、非常に困難である。最近の深層学習に関する研究に着想を得て、本研究では、ニューラルネットワークに基づく新たなエンドツーエンドアプローチである「Watch, Attend and Parse(WAP)」を提案する。この手法は、HMEの二次元レイアウトを学習し、出力としてLaTeX形式の一次元文字列を生成することを可能にする。従来の手法とは異なり、本モデルは記号の分割に起因する問題を回避し、事前に定義された数式文法を必要としない。また、記号認識と構造解析の課題は、それぞれ「ウォッチャー(watcher)」と「パーサー(parser)」によって処理される。ウォッチャーとして、HME画像を入力とする畳み込みニューラルネットワーク(CNN)エンコーダを採用し、パーサーとして、アテンション機構を備えた再帰型ニューラルネットワーク(RNN)デコーダを用いてLaTeXシーケンスを生成する。さらに、入力数式と出力LaTeXシーケンスの対応関係は、アテンション機構によって自動的に学習される。本手法の有効性は、CROHME国際コンペティションが公開したベンチマークデータセットを用いて検証された。公式トレーニングデータセットを用いた実験では、WAPは従来の最先端手法を大きく上回り、CROHME 2014において46.55%、CROHME 2016において44.55%の数式認識精度を達成した。