8日前
DEER:シーンテキストスポットリング向けの検出非依存型エンドツーエンド認識モデル
Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil, Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek

要約
最近のエンドツーエンド型シーンテキストスポットティング手法は、任意形状のテキストインスタンスを認識する性能において顕著な進展を遂げている。一般的なテキストスポットティング手法では、領域オブジェクトプーリングやセグメンテーションマスクを用いて、特徴量を個々のテキストインスタンスに限定する。しかし、このアプローチでは、検出が不正確な場合(たとえば、1文字以上が切り取られる場合)に、認識器が正しい文字列を復号することが困難になる。検出器のみに頼って単語境界を正確に決定するのは難しいことを踏まえ、本研究では、検出に依存しないエンドツーエンド認識フレームワーク「DEER(Detection-agnostic End-to-End Recognizer)」を提案する。本手法は、各テキストインスタンスに対して1つの参照点を用いて検出モジュールと認識モジュールを接続することで、検出と認識モジュール間の過度な依存関係を軽減する。この参照点を基準に、認識器は画像全体から得られる特徴量を用いてテキストを認識できる。1つの点のみでテキスト認識が可能であるため、本手法は任意形状の検出器やバウンディングポリゴンのアノテーションを必要としないテキストスポットティングを実現する。実験結果から、本手法は標準的および任意形状テキストスポットティングのベンチマークにおいて、競争力ある性能を達成することが示された。さらに、詳細な分析により、DEERが検出エラーに対して高いロバスト性を有することが明らかになった。コードおよびデータセットは公開予定である。