8日前
SPTS:シングルポイントテキストスポットティング
Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang, Songxuan Lai, Shenggao Zhu, Jing Li, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin

要約
既存のシーンテキストスポットティング(すなわち、エンドツーエンドのテキスト検出と認識)手法は、高コストなバウンディングボックスのラベル(例えば、テキストライン、単語レベル、文字レベルのバウンディングボックス)に依存している。本研究では、初めて各インスタンスに対して単一の点(point)のみをラベルとして用いることで、シーンテキストスポットティングモデルの学習が可能であることを実証した。本研究では、シーンテキストスポットティングをシーケンス予測タスクとして捉えるエンドツーエンドの手法を提案する。入力画像に対して、検出結果と認識結果を離散的なトークンのシーケンスとして定式化し、自己回帰型Transformerを用いてそのシーケンスを予測する。提案手法は構成が単純でありながらも、広く用いられているベンチマークにおいて最先端の性能を達成している。特に重要なのは、点ラベルの位置に対して性能がそれほど敏感ではないことを示したことである。これは、バウンディングボックスのように正確な位置を必要としないため、ラベリングがはるかに容易になり、自動生成も可能であることを意味する。本研究のこうした先駆的な試みは、従来に比べてはるかに大規模なシーンテキストスポットティングの応用が実現可能になるという大きな可能性を示している。コードは以下のURLで公開されている:https://github.com/shannanyinxiang/SPTS。