15日前

Start、Follow、Read:エンドツーエンド完全ページ手書き認識

{Brian Davis, Brian Price, Chris Tensmeyer, William Barrett, Scott Cohen, Curtis Wigington}
Start、Follow、Read:エンドツーエンド完全ページ手書き認識
要約

数十年にわたる研究にもかかわらず、劣化した歴史的文書に対するオフライン手書き文字認識(HWR)は依然として困難な課題であり、この問題が解決されれば、オンライン文化遺産アーカイブの検索可能性が大きく向上する。従来のHWRモデルは、テキスト検出およびセグメンテーションの前段階の精度に制限を受けることが多く、その影響が認識性能全体に及びやすい。こうした課題に鑑み、本研究では、検出やセグメンテーションのアノテーションをほとんど用いずに、テキスト検出、セグメンテーション、認識を統合的に学習する深層学習モデルを提案する。本モデルは「Start, Follow, Read(SFR)」と名付けられ、テキスト行の開始位置を検出するための領域提案ネットワーク(Region Proposal Network)と、曲線を含むテキスト行を段階的に追跡・前処理し、CNN-LSTMネットワークによる認識に適した展開画像(dewarped image)に変換する新規な行追跡ネットワーク(line follower network)から構成される。SFRモデルは、ICDAR2017手書き文字認識コンペティションの優勝者モデルを上回る性能を達成しており、特にコンペティションで提供された領域アノテーションを使用しない状況でも同様の優れた結果を示している。

Start、Follow、Read:エンドツーエンド完全ページ手書き認識 | 最新論文 | HyperAI超神経