1ヶ月前
Mask TextSpotter: 任意の形状のテキストを検出するためのエンドツーエンドで学習可能なニューラルネットワーク
Pengyuan Lyu; Minghui Liao; Cong Yao; Wenhao Wu; Xiang Bai

要約
最近、深層ニューラルネットワークを基にしたモデルが、シーンテキスト検出および認識の分野で主流となっています。本論文では、自然画像におけるテキスト検出と認識を同時に実現するシーンテキストスポットティングの問題について調査を行いました。シーンテキストスポットティング用のエンドツーエンド学習可能なニューラルネットワークモデルを提案します。提案されたモデルは、新しく発表されたMask R-CNNから着想を得た「Mask TextSpotter」と名付けられました。従来のエンドツーエンド学習可能な深層ニューラルネットワークでもテキストスポットティングを達成していましたが、Mask TextSpotterはセマンティックセグメンテーションを通じて正確なテキスト検出と認識を獲得する単純かつ滑らかなエンドツーエンド学習プロシージャを活用しています。さらに、曲線的な文字など不規則な形状を持つテキストインスタンスの処理においても、従来の方法よりも優れています。ICDAR2013、ICDAR2015およびTotal-Textでの実験結果は、提案手法がシーンテキスト検出およびエンドツーエンドテキスト認識タスクにおいて最先端の成果を達成していることを示しています。