17日前

画像からマークアップ生成を実現するツリー構造デコーダー

{Li-Rong Dai, Yi-Zhe Song, Yongxin Yang, Si Wei, Jun Du, Jianshu Zhang}
要約

最近のエンコーダ・デコーダアプローチでは、画像をマークアップに変換する際、通常、画像をシーケンシャルな文字列に変換するための文字列デコーダが用いられる。しかし、木構造をもつ表現形式であるマークアップに対しては、文字列表現は構造的な複雑性に対処しきれない。本研究では、簡単なモデル問題を通じて、文字列デコーダが木構造を復号する際に、構造の複雑さが増すにつれて著しく困難であることを示す。その後、木構造のマークアップを生成することを目的とした、木構造を考慮したデコーダを提案する。本デコーダは逐次的に動作し、各ステップで子ノードとその親ノードを同時に生成することで部分木を構築する。この部分木を再帰的に組み合わせることで、最終的な木構造を構築する。本木構造デコーダの成功の鍵は二つに分けられる。(i) 木の親子関係を厳密に尊重すること、(ii) 線形的な文字列ではなく、明示的に木構造を出力することである。数学式認識および化学式認識の両タスクにおいて評価した結果、提案する木構造デコーダは、強力な文字列デコーダベースラインを大幅に上回ることが示された。