11日前
CLIP4STR:事前学習済み視覚言語モデルを用いたシーンテキスト認識のシンプルなベースライン
Shuai Zhao, Ruijie Quan, Linchao Zhu, Yi Yang

要約
事前学習済みの視覚言語モデル(VLMs)は、さまざまな下流タスクにおける実質的な基盤モデルとして広く採用されている。しかし、シーンテキスト認識(STR)の手法は、依然として単一モダリティ(特に視覚モダリティ)で事前学習されたバックボーンを好む傾向にあり、VLMsが強力なシーンテキスト認識器としての潜在能力を持つにもかかわらずである。例えば、CLIPは画像内の規則的(水平)および不規則(回転、曲線、ぼやけ、隠蔽など)なテキストを堅牢に識別できる。このような利点を活かして、本研究ではCLIPをシーンテキスト認識器に変換し、CLIPの画像エンコーダとテキストエンコーダを基盤とする、シンプルかつ効果的なSTR手法「CLIP4STR」を提案する。CLIP4STRは、視覚ブランチとクロスモダルブランチという2つのエンコーダデコーダブランチから構成される。視覚ブランチは視覚特徴に基づいて初期予測を生成し、クロスモダルブランチは視覚特徴とテキスト意味の乖離を解消することで、この予測を精緻化する。両ブランチの能力を最大限に活かすために、推論段階で「二段階予測・精製」方式のデコーディングスキームを設計した。モデルサイズ、事前学習データ、学習データのスケーリングを実施した結果、13のSTRベンチマークにおいて最先端の性能を達成した。さらに、CLIPをSTRに適応させるプロセスを深く理解するための包括的な実証的研究も提供している。本手法は、今後のVLMを用いたSTR研究におけるシンプルでありながら強力なベースラインを確立している。