8日前

ABCNet v2:リアルタイムエンドツーエンドテキストスポットティングのためのアダプティブBezier曲線ネットワーク

Yuliang Liu, Chunhua Shen, Lianwen Jin, Tong He, Peng Chen, Chongyu Liu, Hao Chen
ABCNet v2:リアルタイムエンドツーエンドテキストスポットティングのためのアダプティブBezier曲線ネットワーク
要約

エンドツーエンド型テキストスポットティングは、検出と認識を統合的な枠組み内で実現することを目的としており、両者の補完的な性質を簡潔に扱える点から注目を集めている。特に任意形状のテキストインスタンスを処理する場合、依然として未解決の課題が残っている。従来の手法は大まかに2つのグループに分類される:文字ベース型とセグメンテーションベース型であり、構造化されていない出力のため、多くの場合、文字レベルのアノテーションや複雑な後処理が必要となる。本研究では、これらの課題に対応するため、Adaptive Bezier Curve Network v2(ABCNet v2)を提案する。本研究の主な貢献は以下の4点である。1)本研究では、パラメータ化されたベジエ曲線を用いて任意形状のテキストを適応的に適合させる初めてのアプローチを提案する。セグメンテーションベース手法と比較して、構造化された出力と制御可能な表現が可能となる。2)任意形状のテキストインスタンスに対して高精度な畳み込み特徴を抽出するため、新しいBezierAlign層を設計した。これにより、従来手法に比べて認識精度が顕著に向上した。3)従来の手法が複雑な後処理や敏感なハイパーパラメータに依存するのに対し、ABCNet v2は唯一の後処理として非最大抑制(NMS)を用いるシンプルなパイプラインを維持している。4)テキスト認識の性能は特徴のアライメントに強く依存するため、ABCNet v2は畳み込みフィルタの位置情報を効果的に符号化する、シンプルかつ効果的な座標畳み込み(coordinate convolution)を導入した。これにより、計算負荷の増加をほとんど伴わず、顕著な性能向上が達成された。英語と中国語を含む多様なバイリンガルベンチマークデータセットを用いた包括的な実験の結果、ABCNet v2は最先端の性能を達成しつつ、極めて高い効率性を維持していることが示された。