15日前

垂直Attentionネットワークを用いたエンドツーエンド型手書き段落テキスト認識

Denis Coquenet, Clément Chatelain, Thierry Paquet
垂直Attentionネットワークを用いたエンドツーエンド型手書き段落テキスト認識
要約

手書きテキストの自由形式認識は、コンピュータビジョンシステムにとって依然として挑戦的な課題である。従来、段落レベルのテキスト認識は、2つのモデルを用いて実現されてきた。1つ目は行分割(line segmentation)を担当し、2つ目はテキスト行の認識を行うものである。本研究では、ハイブリッドアテンションを用いた統合的エンドツーエンドモデルを提案する。このモデルは、段落画像を繰り返し行単位で処理する仕組みを採用している。全体として3つのモジュールに分けることができる。まず、エンコーダは段落全体の画像から特徴マップを生成する。次に、アテンションモジュールが反復的に垂直方向の重み付きマスクを生成し、現在のテキスト行の特徴に注目する。これにより、暗黙的な行分割が実現される。各テキスト行の特徴に対して、デコーダモジュールが対応する文字列を認識し、最終的に段落全体の認識が達成される。本手法は、3つの代表的なデータセットにおいて、段落レベルで最先端の文字誤認識率(character error rate, CER)を達成した。具体的には、RIMESで1.91%、IAMで4.45%、READ 2016で3.59%を実現した。本研究のコードおよび学習済みモデルの重みは、https://github.com/FactoDeepLearning/VerticalAttentionOCR にて公開されている。

垂直Attentionネットワークを用いたエンドツーエンド型手書き段落テキスト認識 | 最新論文 | HyperAI超神経