8日前

A3S:シーンテキストスポットティングにおける意味表現の敵対学習

Masato Fujitake
A3S:シーンテキストスポットティングにおける意味表現の敵対学習
要約

シーンテキストスポットリングは、自然なシーン画像上のテキスト領域を予測し、同時にそのテキスト文字を認識するタスクであり、近年、その広範な応用性から注目を集めている。従来の研究は主にテキスト領域の検出精度の向上に注力しており、テキスト認識の改善にはあまり焦点が当たっていなかった。その結果、検出精度は向上しているものの、エンド・トゥ・エンドでの全体的な認識精度は十分でない状況にある。自然なシーン画像内のテキストは、単なる文字の乱れではなく、意味を持つ文字列、すなわち単語として現れる傾向がある。このような性質を活かすために、本研究ではシーンテキストスポットリングのための意味表現の敵対学習手法(A3S: Adversarial learning of Semantic Representations for Scene Text Spotting)を提案する。A3Sは、従来の視覚的特徴に基づくテキスト認識にとどまらず、検出されたテキスト領域内に意味的特徴を同時に予測することで、エンド・トゥ・エンドの認識精度、特にテキスト認識の精度を向上させることを目的とする。公開データセットを用いた実験結果から、提案手法が他の手法と比較して優れた認識精度を達成することが確認された。

A3S:シーンテキストスポットティングにおける意味表現の敵対学習 | 最新論文 | HyperAI超神経