HyperAIHyperAI

Command Palette

Search for a command to run...

SPTS:シングルポイントテキストスポットティング

概要

既存のシーンテキストスポットティング(すなわち、エンドツーエンドのテキスト検出と認識)手法は、高コストなバウンディングボックスのラベル(例えば、テキストライン、単語レベル、文字レベルのバウンディングボックス)に依存している。本研究では、初めて各インスタンスに対して単一の点(point)のみをラベルとして用いることで、シーンテキストスポットティングモデルの学習が可能であることを実証した。本研究では、シーンテキストスポットティングをシーケンス予測タスクとして捉えるエンドツーエンドの手法を提案する。入力画像に対して、検出結果と認識結果を離散的なトークンのシーケンスとして定式化し、自己回帰型Transformerを用いてそのシーケンスを予測する。提案手法は構成が単純でありながらも、広く用いられているベンチマークにおいて最先端の性能を達成している。特に重要なのは、点ラベルの位置に対して性能がそれほど敏感ではないことを示したことである。これは、バウンディングボックスのように正確な位置を必要としないため、ラベリングがはるかに容易になり、自動生成も可能であることを意味する。本研究のこうした先駆的な試みは、従来に比べてはるかに大規模なシーンテキストスポットティングの応用が実現可能になるという大きな可能性を示している。コードは以下のURLで公開されている:https://github.com/shannanyinxiang/SPTS


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SPTS:シングルポイントテキストスポットティング | 記事 | HyperAI超神経