17日前

TDv2:オフライン数式認識のための新たな木構造デコーダ

{Yiqing Hu, Bo Ren, Chen Yang, Jianshu Zhang, Yunqing Li, Jun Du, Changjie Wu}
要約

近年、手書き数式認識(HMER)分野において、数式の階層的構造を捉えられる点から、LaTeX文字列デコーダーに比べてツリー・デコーダーがより注目されている。しかし、従来のツリー・デコーダーは、ツリー構造ラベルを固定された順序付きシーケンスに変換していたため、ツリー・ラベルが持つ多様な表現形式を十分に活用できていなかった。本研究では、ツリー構造ラベルを効果的に活用するための新規ツリー・デコーダー(TDv2)を提案する。従来のツリー・デコーダーとは異なり、本モデルは学習および推論時にノードの異なる枝に対して固定された優先順位を必要とせず、モデルの汎化能力を有効に向上させることができる。モデルの入力および出力はすべてツリー構造ラベルを活用しており、デコーディング過程で親ノードを探索する必要がなくなるため、デコーディングプロセスが簡素化されるとともに、ノード予測に事前知識を付加することができる。本モデルの各構成要素の有効性は、包括的なアブレーション実験および注目可視化解析により検証された。また、権威あるCROHME 14/16/19データセットにおいて、本手法は最先端の性能を達成した。