HyperAIHyperAI

Command Palette

Search for a command to run...

垂直Attentionネットワークを用いたエンドツーエンド型手書き段落テキスト認識

Denis Coquenet Clément Chatelain Thierry Paquet

概要

手書きテキストの自由形式認識は、コンピュータビジョンシステムにとって依然として挑戦的な課題である。従来、段落レベルのテキスト認識は、2つのモデルを用いて実現されてきた。1つ目は行分割(line segmentation)を担当し、2つ目はテキスト行の認識を行うものである。本研究では、ハイブリッドアテンションを用いた統合的エンドツーエンドモデルを提案する。このモデルは、段落画像を繰り返し行単位で処理する仕組みを採用している。全体として3つのモジュールに分けることができる。まず、エンコーダは段落全体の画像から特徴マップを生成する。次に、アテンションモジュールが反復的に垂直方向の重み付きマスクを生成し、現在のテキスト行の特徴に注目する。これにより、暗黙的な行分割が実現される。各テキスト行の特徴に対して、デコーダモジュールが対応する文字列を認識し、最終的に段落全体の認識が達成される。本手法は、3つの代表的なデータセットにおいて、段落レベルで最先端の文字誤認識率(character error rate, CER)を達成した。具体的には、RIMESで1.91%、IAMで4.45%、READ 2016で3.59%を実現した。本研究のコードおよび学習済みモデルの重みは、https://github.com/FactoDeepLearning/VerticalAttentionOCR にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
垂直Attentionネットワークを用いたエンドツーエンド型手書き段落テキスト認識 | 記事 | HyperAI超神経