17日前
SPTS v2:シングルポイントシーンテキストスポットティング
Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang, Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin

要約
エンドツーエンドのシーンテキストスポートは、テキスト検出と認識の内在的な連携により、著しい進展を遂げてきた。従来の手法は、水平長方形、回転長方形、四角形、多角形などの手動アノテーションを前提としているが、これらは単一点アノテーションに比べてはるかにコストが高くなる。本研究で提案する新フレームワーク、SPTS v2は、単一点アノテーションのみを用いて高性能なテキストスポートモデルを学習可能にする。SPTS v2は、同一予測シーケンス内ですべてのテキストインスタンスの中心点を逐次的に予測する自己回帰型Transformerと、インスタンス割り当てデコーダ(IAD)を維持しつつ、並列認識デコーダ(PRD)を用いてテキスト認識を並列処理することで、シーケンス長の要件を著しく低減している。これらの2つのデコーダは同一のパラメータを共有し、単純ながら有効な情報伝達プロセスを通じて勾配と情報を相互に伝達する。複数の既存ベンチマークデータセットにおける包括的な実験結果から、SPTS v2はパラメータ数を少なく抑えつつ、従来の最先端の単一点テキストスポッターを上回る性能を達成するとともに、推論速度が最大19倍高速化することを示した。本研究のSPTS v2フレームワークの文脈において、他の表現形式と比較して、単一点表現の優位性が示唆されている。このようなアプローチは、従来のパラダイムを超えたシーンテキストスポートの応用に大きな可能性を提供するものである。コードは以下のURLで公開されている:https://github.com/Yuliang-Liu/SPTSv2。