11日前

シーンテキスト認識における分類アプローチの再検討

Hongxiang Cai, Jun Sun, Yichao Xiong
シーンテキスト認識における分類アプローチの再検討
要約

シーンテキスト認識の主流的なアプローチは、シーケンスからシーケンス(seq2seq)およびセグメンテーションに基づくものである。しかし、前者は多数のモジュールから構成されるため、実装およびデプロイが複雑になりやすく、後者は文字レベルのアノテーションを必要とするため、コストが高くなる。本論文では、シーンテキスト認識を画像分類問題としてモデル化する「分類的アプローチ(classification perspective)」を再検討する。このアプローチはシンプルなパイプラインを採用しており、ワードレベルのアノテーションのみを必要とする。本研究では、この分類的アプローチを復活させるため、CSTR(Classification-based Scene Text Recognition)と名付けた新しい認識モデルを提案する。CSTRは他のアプローチに基づく手法と同等の性能を達成している。CSTRモデルは、CPNet(Classification Perspective Network)とSPPN(Separated Convolution with Global Average Pooling Prediction Network)から構成されており、ResNet \cite{he2016deep} などの画像分類モデルと同様にシンプルな構造を有しているため、実装およびデプロイが容易である。広範な実験を通じて、分類的アプローチがシーンテキスト認識において有効であることを示した。さらに、CSTRは規則的なテキストから不規則なテキストを含む6つの公開ベンチマークにおいて、ほぼ最先端の性能を達成している。コードは https://github.com/Media-Smart/vedastr にて公開される予定である。

シーンテキスト認識における分類アプローチの再検討 | 最新論文 | HyperAI超神経