
要約
シーンテキスト認識(Scene Text Recognition, STR)は、物体のラベル、道路標識、説明文など自然なシーン内のテキストをコンピュータが読み取ることを可能にする技術であり、機械が「どの物体を掴むか」「どの方向に進むか」「次の行動ステップは何か」など、情報に基づいた意思決定を行うのを支援する。これまでのSTRに関する研究では、認識精度の向上が主な焦点とされてきたが、特にエネルギー制約下のモバイル機械において重要な速度と計算効率については、あまり注目されていない。本論文では、計算効率およびパラメータ効率に優れたビジョン変換器(Vision Transformer, ViT)を基盤として構築された、単一段階のシンプルなモデルアーキテクチャであるViTSTRを提案する。TRBAという強力なベースライン(精度84.3%)と比較して、小型のViTSTRは82.6%の競争力ある精度(データ拡張を用いる場合84.2%)を達成しつつ、2.4倍の高速化を実現し、パラメータ数は43.4%、FLOPSは42.2%にまで削減した。さらに、極小サイズのViTSTRでは、80.3%の精度(データ拡張時82.1%)を達成しつつ、2.5倍の高速化を実現し、パラメータ数は10.9%、FLOPSは11.9%にまで低減した。データ拡張を適用した場合、ベースラインのViTSTRは85.2%の精度(拡張なしでは83.7%)を達成し、2.3倍の高速化を実現したが、パラメータ数は73.2%増加、FLOPSは61.5%増加する。これらの結果から、ViTSTRのほぼすべての構成は、精度、速度、計算効率の三者を同時に最適化するというトレードオフの前線に位置していることが示された。