
要約
本稿では、自然画像から直接単語レベルのバウンディングボックスを出力する新しい一発検出器を提案します。当該検出器は、自動的に学習された注意マップを通じてテキスト領域を大まかに識別する注意メカニズムを導入しています。これにより、畳み込み特徴量における背景の干渉が大幅に抑制され、特に極めて小さなサイズの単語においても正確な推論を行うことが可能となります。その結果、粗い段階から細かい段階へと進むような機能を持つ単一モデルが実現しました。これは、複数のFCN(Fully Convolutional Network)モデルを連続して使用することで精度の高い予測を行う最近のFCNベースのテキスト検出器とは異なります。さらに、多スケールインセプション特徴量を効率的に集約する階層的なインセプションモジュールを開発しました。これにより局所的な詳細が強化されるとともに、強力なコンテクスト情報もエンコードされるため、単一スケールの画像でも多スケールおよび多方向性のテキストに対して信頼性のある検出が可能となります。我々のテキスト検出器はICDAR 2015ベンチマークでF値77%を達成し、既存の最先端成果[18, 28]を超える結果を得ました。デモンストレーションは以下のURLで利用可能です: http://sstd.whuang.org/