
要約
制約のないエンドツーエンド型のテキストローカライゼーションおよび認識手法を提示する。本手法は、効率的な領域ベースの手法を用いて単一パスで初期のテキスト仮説を検出し、その後、より堅牢な局所的テキストモデルを用いてその仮説を精緻化する。これは、領域ベース手法の一般的な仮定である「すべての文字が連結成分として検出される」という前提から逸脱している。さらに、文字の線画面積推定に基づく新たな特徴量が導入されている。この特徴量は領域距離マップから効率的に計算可能であり、スケーリングや回転に対して不変であるため、テキスト領域がどの程度の部分をカバーしているかにかかわらず、効率的にテキスト領域を検出することが可能である。本手法はリアルタイムで動作し、ICDAR 2013 Robust Readingデータセットにおいて最先端のテキストローカライゼーションおよび認識性能を達成している。