6ヶ月前

概要

近年、不規則なシーンテキストを検出するための多数のアプローチが提案され、有望な結果が得られている。しかし、これらの手法の位置特定結果は、主に以下の2つの理由により、次のテキスト認識部において十分な性能を発揮できない場合がある。1) 任意形状のテキストを認識することは依然として困難な課題であり、2) テキスト検出とテキスト認識の間に広く用いられている非トレーナブルなパイプライン戦略が、最適な性能を発揮できない原因となる。この不整合問題に対処するため、本論文では「Text Perceptron」というエンド・ツー・エンドでトレーニング可能なテキストスポットティング手法を提案する。具体的には、Text Perceptronは、潜在的なテキスト読み順および境界情報を学習する効率的なセグメンテーションベースのテキスト検出器をまず用いる。その後、追加パラメータを必要とせずに、検出された特徴領域を規則的な形状に変換する新しい「Shape Transform Module（STM）」を設計する。このSTMにより、テキスト検出とその後の認識部が統合された全体フレームワークが実現され、ネットワーク全体がグローバル最適化を達成できるようになる。実験の結果、本手法は標準的なテキストベンチマークであるICDAR 2013およびICDAR 2015において競争力のある性能を達成するとともに、不規則テキストベンチマークであるSCUT-CTW1500およびTotal-Textでは、既存手法を顕著に上回る性能を示した。

ソースPDF