Command Palette
Search for a command to run...
{and J. Han. K.-Y. K. Wong W. Liu Z. Su C. Chen}
要約
本稿では、シーンテキストの認識を目的として、新しい空間注意力リジッドネットワーク(STAR-Net)を提案する。本STAR-Netは、自然画像におけるテキストの歪みを除去するための空間変換器(spatial transformer)を活用した空間注意力機構を備えている。これにより、後続の特徴抽出器は歪みの影響を受けずに、補正されたテキスト領域に焦点を当てて特徴を抽出することが可能となる。また、本ネットワークはリジッド畳み込みブロック(residue convolutional blocks)を用いて極めて深い特徴抽出器を構築しており、この細粒度な認識タスクにおいて識別性の高いテキスト特徴を効果的に抽出する上で不可欠である。空間注意力機構とリジッド畳み込みブロックを統合することにより、STAR-Netはシーンテキスト認識における最深のエンド・トゥ・エンド学習可能なニューラルネットワークとなっている。5つの公開ベンチマークデータセットを用いた実験の結果、歪みが少ないシーンテキストに対しては、最先端の手法と同等の性能を達成し、歪みが顕著なシーンテキストに対しては、それらの手法を上回る性能を示した。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| scene-text-recognition-on-icdar-2003 | STAR-Net | Accuracy: 89.9 |
| scene-text-recognition-on-icdar2013 | STAR-Net | Accuracy: 89.1 |
| scene-text-recognition-on-svt | STAR-Net | Accuracy: 83.6 |