16日前
PGNet:ポイント集約ネットワークを用いたリアルタイムな任意形状テキストスポットティング
Pengfei Wang, Chengquan Zhang, Fei Qi, Shanshan Liu, Xiaoqiang Zhang, Pengyuan Lyu, Junyu Han, Jingtuo Liu, Errui Ding, Guangming Shi

要約
任意形状のテキスト読み取りは、近年ますます注目される研究分野となっている。しかし、従来のテキストスポットタ(text spotter)は、主に二段階フレームワークまたは文字ベースの手法に依拠しており、いずれも非最大値抑制(Non-Maximum Suppression: NMS)、領域関心(Region-of-Interest: RoI)操作、あるいは文字レベルのアノテーションを必要とするという課題を抱えている。本論文では、これらの問題を解決するため、リアルタイムで任意形状のテキストを読み取ることを目的として、新しい完全畳み込み型のポイント集約ネットワーク(Point Gathering Network: PGNet)を提案する。PGNetは単一ショットのテキストスポットタであり、提案するPG-CTC損失関数を用いて、文字レベルのアノテーションを用いずにピクセルレベルの文字分類マップを学習する。PG-CTCデコーダを導入することで、二次元空間から高レベルの文字分類ベクトルを集約し、NMSやRoI操作を一切用いずにテキスト記号にデコードすることができ、高い効率性を実現する。さらに、各文字とその隣接文字との関係性を推論するため、粗い認識結果を最適化し、エンドツーエンドの性能を向上させるためのグラフ精 refinement モジュール(Graph Refinement Module: GRM)を提案する。実験の結果、提案手法は競争力ある精度を達成するとともに、処理速度を顕著に向上させることを示した。特にTotal-Textデータセットにおいて、46.7 FPSの実行速度を達成し、従来のスポットタと比較して大幅な性能向上を示した。