8日前
GLASS:シーンテキストスポットティングにおけるグローバルからローカルへのアテンション
Roi Ronen, Shahar Tsiper, Oron Anschel, Inbal Lavi, Amir Markovitz, R. Manmatha

要約
近年、テキストスポットティングの主流となるパラダイムは、テキスト検出と認識の2つのタスクを1つのエンドツーエンドフレームワークに統合するものである。このアプローチでは、入力画像から抽出された共有グローバル特徴マップ上で両タスクを同時に行う。エンドツーエンド手法が直面する主な課題の一つは、テキストのスケール変化(小さくまたは大きく)や任意の単語回転角に対応する際の性能低下である。本研究では、グローバル特徴とローカル特徴を統合する新たなグローバルからローカルへのアテンション機構「GLASS(Global-to-Local Attention for Text Spotting)」を提案することで、これらの課題に取り組む。グローバル特徴は共有バックボーンから抽出され、画像全体の文脈情報を保持するのに対し、ローカル特徴は回転・リサイズされた高解像度の単語クリップごとに個別に計算される。このローカルクリップから得られる情報により、スケール変動および単語回転に関する本質的な困難の多くが軽減される。本研究では、スケールおよび回転角にわたる性能評価を行い、特に極端なスケールや角度において顕著な性能向上を示す。さらに、検出タスクを制御する回転方向に敏感な損失項(orientation-aware loss)を導入し、全角度にわたり検出および認識性能の向上に寄与することを実証する。最後に、GLASSが他の先進的なテキストスポットティングアーキテクチャにも一般化可能であることを示し、それらの性能を向上させることを確認した。本手法は、新たにリリースされたTextOCRを含む複数のベンチマークにおいて、最先端の性能を達成した。