8日前

Mask TextSpotter v3:ロバストなシーンテキストスポットティングのためのセグメンテーションプロポーザルネットワーク

Minghui Liao, Guan Pang, Jing Huang, Tal Hassner, Xiang Bai
Mask TextSpotter v3:ロバストなシーンテキストスポットティングのためのセグメンテーションプロポーザルネットワーク
要約

最近、検出と認識を統合したエンド・トゥ・エンドで学習可能なシーンテキストスポッティング手法が著しい進展を遂げている。しかし、現在の多数の任意形状テキストスポッタは、領域提案ネットワーク(RPN)を用いて提案領域を生成している。RPNは手動で設計されたアンカーに大きく依存しており、提案領域は軸に平行な長方形で表現される。前者は極端なアスペクト比や不規則な形状のテキストインスタンスの処理に困難をもたらし、後者は密に配置された方向性を持つテキストにおいて、複数の隣接するインスタンスを一つの提案領域に含んでしまうことがある。こうした課題に対処するため、本研究ではRPNの代わりにセグメンテーション提案ネットワーク(SPN)を採用したエンド・トゥ・エンドで学習可能なシーンテキストスポッタ「Mask TextSpotter v3」を提案する。本SPNはアンカーフリーであり、任意形状の提案領域を高精度に表現できる。その結果、極端なアスペクト比や不規則な形状のテキストインスタンスの検出において、RPNを上回る性能を発揮する。さらに、SPNが生成する高精度な提案領域により、マスク付きRoI特徴量を用いた隣接テキストインスタンスの分離が可能となり、近接するテキストや背景ノイズの影響を受けずに認識精度を維持できる。具体的には、回転ロバスト性を評価するRotated ICDAR 2013データセットで最先端手法を21.9%上回り、形状ロバスト性を評価するTotal-Textデータセットで5.9%の向上を達成し、アスペクト比ロバスト性を評価するMSRA-TD500データセットでは最先端の性能を実現した。コードは以下のURLから公開されている:https://github.com/MhLiao/MaskTextSpotterV3