11日前
SVTR:単一の視覚モデルを用いたシーンテキスト認識
Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang

要約
シーンテキスト認識の主流モデルは、通常、特徴抽出用の視覚モデルとテキスト変換用の系列モデルという2つの構成要素で構成される。このハイブリッドアーキテクチャは、高い精度を達成するものの、構造が複雑で効率性に欠けるという課題がある。本研究では、パッチ単位の画像トークン化フレームワーク内に、単一の視覚モデルによるシーンテキスト認識を提案する。このアプローチは、系列モデルの使用を完全に排除するものである。提案手法をSVTR(Single Visual model for Scene Text Recognition)と呼ぶ。SVTRは、まずシーンテキスト画像を小さなパッチ、すなわち文字コンポーネントに分解する。その後、コンポーネントレベルでの混合・結合・マージを段階的に繰り返す階層的処理を実行する。ここで、文字間パターンと文字内パターンをそれぞれ捉えるために、グローバル混合ブロックとローカル混合ブロックを設計し、多スケールの文字コンポーネントの認識を実現する。その結果、単純な線形予測によって文字を認識することが可能となる。英語および中国語のシーンテキスト認識タスクにおける実験結果から、SVTRの有効性が確認された。SVTR-L(Large)は英語では非常に競争力のある精度を達成し、中国語では既存手法を大きく上回る性能を発揮しつつ、高速な処理を実現している。また、SVTR-T(Tiny)は効率的かつ非常に小型なモデルであり、推論時の速度が優れている。本研究のコードは、https://github.com/PaddlePaddle/PaddleOCR にて公開されている。