2ヶ月前

シーンテキスト検出における全体的、多チャネル予測

Cong Yao; Xiang Bai; Nong Sang; Xinyu Zhou; Shuchang Zhou; Zhimin Cao
シーンテキスト検出における全体的、多チャネル予測
要約

最近、シーンテキスト検出はコンピュータビジョンおよび文書解析における活発な研究テーマとなっています。これは、その重要性と大きな挑戦性によるものです。しかし、既存の方法の大部分は局所的な領域内でテキストを検出し、通常は文字、単語、または行レベルの候補を抽出し、その後候補の集約と偽陽性の排除を行うため、シーン内の広範囲かつ長距離の文脈情報の影響が潜在的に除外される可能性があります。全体的な自然画像に含まれる豊富な情報を最大限に活用するため、我々はシーンテキスト検出をセマンティックセグメンテーション問題として扱い、テキストを包括的に位置特定することを提案します。提案されたアルゴリズムは直接フル画像上で動作し、グローバルなピクセルレベルの予測マップを生成します。このマップから検出結果が形成されます。テキスト領域、個々の文字、およびそれらの関係に関する3種類の情報を単一の完全畳み込みネットワーク(Fully Convolutional Network: FCN)モデルで推定することで、テキストの特性をより効果的に利用できます。このようなテキスト特性の予測により、提案されたアルゴリズムは実世界の自然画像において水平方向、多方向性および曲線的なテキストを同時に処理することができます。ICDAR 2013, ICDAR 2015, MSRA-TD500などの標準ベンチマークでの実験結果は、提案されたアルゴリズムが従来の最先端手法を大幅に上回ることを示しています。さらに、最近公開された大規模データセットCOCO-Textにおける初めてのベースライン結果も報告しています。