16日前

任意形状のテキストの認識における2D自己注意機構の活用

Junyeop Lee, Sungrae Park, Jeonghun Baek, Seong Joon Oh, Seonghyeon Kim, Hwalsuk Lee

要約

シーンテキスト認識（Scene Text Recognition, STR）とは、自然なシーン画像内の文字列を認識するタスクである。近年、STRの手法には著しい進展が見られることとなったが、現行の手法は日常的に多く見られる曲がった形状や回転した文字列（例：飲食店の看板、製品ラベル、企業ロゴなど）を正確に認識できないという課題を抱えている。本論文では、任意の形状のテキストを認識できる新たなアーキテクチャである「自己注意型テキスト認識ネットワーク（Self-Attention Text Recognition Network, SATRN）」を提案する。SATRNはTransformerに着想を得ており、シーンテキスト画像における文字の二次元（2D）空間的依存関係を自己注意機構を用いて表現する。自己注意機構のフルグラフ伝播特性を活用することで、任意の配置や大規模な文字間隔を有するテキストの認識が可能となる。その結果、SATRNは「不規則なテキスト」を対象としたベンチマークにおいて、既存のSTRモデルと比較して平均で5.7パーセンテージポイント（pp）の顕著な性能向上を達成した。本研究では、モデルの内部メカニズムと適用範囲（例えば、回転したテキストや複数行テキストなど）についての実証的分析も提供する。また、本研究のコードはオープンソースとして公開する予定である。