
要約
自然シーンにおける任意形状テキスト検出は、極めて困難なタスクである。従来のテキスト検出手法は、限定的な特徴表現に基づいてテキストを認識するにとどまっているが、本研究では、より豊かな特徴を融合させることでテキスト検出を効果的に実現する新たなフレームワーク、TextFuseNetを提案する。具体的には、文字レベル、単語レベル、およびグローバルレベルの3段階の特徴表現からテキストを捉え、それらを統合する新しいテキスト表現融合技術を導入することで、ロバストな任意形状テキスト検出を実現する。多段階の特徴表現は、テキストを個々の文字に分解しつつも、その一般的な意味を保持することができるため、テキストを的確に記述可能である。TextFuseNetは、マルチパス融合アーキテクチャを用いて、異なるレベルの特徴を収集・統合し、異なる表現間の効果的なアライメントと融合を実現する。実際の運用では、本手法により任意形状テキストのより適切な記述が可能となり、誤検出の抑制とより高精度な検出結果が得られる。さらに、文字レベルのラベルが不足するデータセットに対しても、弱教師あり学習(weak supervision)の枠組みで本フレームワークを学習可能である。複数のデータセットにおける実験結果から、提案手法TextFuseNetは最先端の性能を達成していることが確認された。特に、ICDAR2013ではF値94.3%、ICDAR2015では92.1%、Total-Textでは87.1%、CTW-1500では86.6%のF値を達成した。