12日前

シーンテキストテレスコープ:テキスト中心のシーン画像スーパーアンプルング

{xiangyang xue, Bin Li, Jingye Chen}
シーンテキストテレスコープ:テキスト中心のシーン画像スーパーアンプルング
要約

画像の超解像(Image super-resolution)は、シーン内のテキスト認識の前処理手順として広く認識されており、低解像度のテキスト画像から現実的な特徴を回復することを目的としている。テキストの形状やフォント、背景などの大きな変動が存在するため、長年にわたり困難な課題とされてきた。しかし、従来の多くは、シーンテキスト画像に対して一般的な超解像フレームワークを適用しているが、テキスト固有の特性、例えばテキストレベルのレイアウトや文字レベルの詳細を無視している。本論文では、テキストに焦点を当てた超解像フレームワークである「Scene Text Telescope(STT)」を提案する。テキストレベルのレイアウトに対しては、順序情報を効果的に抽出できる自己注意(Self-Attention)モジュールを内包するTransformerベースの超解像ネットワーク(TBSRN)を提案し、任意の向きに配置されたテキストに対しても堅牢な処理を可能にしている。文字レベルの詳細に関しては、各文字の位置を強調するための「位置感知モジュール(Position-Aware Module)」と、文字の内容を適切に捉えるための「コンテンツ感知モジュール(Content-Aware Module)」を設計した。低解像度条件下で一部の文字が区別がつかない状況に着目し、この問題に対処するために重み付き交差エントロピー損失(weighted cross-entropy loss)を導入した。TextZoomおよび複数のシーンテキスト認識ベンチマークを用いた広範な実験を通じて、事前に学習された認識モデルを用いたテキスト認識性能と画像品質評価を行い、超解像画像の性能を評価した。実験結果から、本研究で提案するSTTはテキストに特化した超解像画像を効果的に生成でき、従来手法に比べて認識精度において優れた性能を示したことが明らかになった。