Command Palette
Search for a command to run...
並べ替え自己回帰シーケンスモデルを用いたシーンテキスト認識
並べ替え自己回帰シーケンスモデルを用いたシーンテキスト認識
Darwin Bautista Rowel Atienza
概要
コンテキスト対応型STR手法は、通常、内部の自己回帰型(AR)言語モデル(LM)を用いる。ARモデルに内在する制約から、外部LMを活用する二段階手法が提案された。しかし、外部LMが入力画像に対して条件付き独立である場合、正しい予測を誤って修正してしまう可能性があり、これにより顕著な非効率が生じる。本研究で提案するPARSeqは、順列言語モデル(Permutation Language Modeling)を用いて、共有重みを持つ内部AR言語モデルのアンサンブルを学習する。本手法は、コンテキストフリーな非AR推論とコンテキスト対応型AR推論を統合し、双方向コンテキストを用いた反復的精緻化を実現する。合成データを用いた学習により、PARSeqはSTRベンチマーク(91.9%の精度)およびより困難なデータセットにおいて、最先端(SOTA)の性能を達成した。実データで学習した場合でも、新たなSOTA(96.0%の精度)を樹立した。シンプルで統一的な構造と並列トークン処理の特徴から、PARSeqはパラメータ数、FLOPS、レイテンシの観点からも精度とのバランスが最適である。また、注意機構を広く活用しているため、現実の画像に一般的に見られる任意方向のテキストに対しても高いロバスト性を発揮する。コード、事前学習済み重み、データは以下のURLで公開されている:https://github.com/baudm/parseq。