6ヶ月前

概要

自然画像におけるテキスト検出と認識の統合フレームワークの開発において、近年の進展が見られつつあるが、従来の統合モデルは多くがROIプーリングを用いる二段階フレームワークに基づいており、これにより認識タスクの性能が低下する傾向があった。本研究では、一回の順伝播で両タスクを同時処理可能な一段階モデルである「畳み込み文字ネットワーク（Convolutional Character Networks）」、通称CharNetを提案する。CharNetは、単語および文字のバウンディングボックスと対応する文字ラベルを直接出力する。本手法は文字を基本要素として採用することで、従来のアプローチがRNNベースの認識ブランチとテキスト検出を同時に最適化しようとする際の主な課題を克服する。さらに、合成データから学習した文字検出能力を実世界画像に適用可能な反復的文字検出手法を構築した。これらの技術的改善により、多方向および曲線状のテキストに対しても信頼性高く動作する、シンプルかつコンパクトでありながら強力な一段階モデルが実現された。CharNetは3つの標準ベンチマーク上で評価され、一貫して最先端の手法[25, 24]を大きく上回る性能を示した。特に、ICDAR 2015では汎用語彙（generic lexicon）を用いたエンドツーエンド認識において65.33%から71.08%へ、Total-Textでは54.0%から69.23%へと大幅な向上を達成した。コードは以下のURLから公開されている：https://github.com/MalongTech/research-charnet。

ソースPDF コードを表示