HyperAIHyperAI

Command Palette

Search for a command to run...

並べ替え自己回帰シーケンスモデルを用いたシーンテキスト認識

Darwin Bautista Rowel Atienza

概要

コンテキスト対応型STR手法は、通常、内部の自己回帰型(AR)言語モデル(LM)を用いる。ARモデルに内在する制約から、外部LMを活用する二段階手法が提案された。しかし、外部LMが入力画像に対して条件付き独立である場合、正しい予測を誤って修正してしまう可能性があり、これにより顕著な非効率が生じる。本研究で提案するPARSeqは、順列言語モデル(Permutation Language Modeling)を用いて、共有重みを持つ内部AR言語モデルのアンサンブルを学習する。本手法は、コンテキストフリーな非AR推論とコンテキスト対応型AR推論を統合し、双方向コンテキストを用いた反復的精緻化を実現する。合成データを用いた学習により、PARSeqはSTRベンチマーク(91.9%の精度)およびより困難なデータセットにおいて、最先端(SOTA)の性能を達成した。実データで学習した場合でも、新たなSOTA(96.0%の精度)を樹立した。シンプルで統一的な構造と並列トークン処理の特徴から、PARSeqはパラメータ数、FLOPS、レイテンシの観点からも精度とのバランスが最適である。また、注意機構を広く活用しているため、現実の画像に一般的に見られる任意方向のテキストに対しても高いロバスト性を発揮する。コード、事前学習済み重み、データは以下のURLで公開されている:https://github.com/baudm/parseq


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
並べ替え自己回帰シーケンスモデルを用いたシーンテキスト認識 | 記事 | HyperAI超神経