11日前
SEED:シーンテキスト認識のための意味強化型エンコーダデコーダフレームワーク
Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang

要約
シーンテキスト認識は、コンピュータビジョン分野における注目される研究テーマである。近年、エンコーダデコーダフレームワークに基づく認識手法が多数提案されており、透視歪みや曲線形状を有するシーンテキストの処理が可能となっている。しかし、画像のぼやけ、不均一な照明、文字の欠損といった課題に直面している。本研究では、多数のエンコーダデコーダ手法が局所的な視覚特徴に依拠しており、明示的なグローバルな意味情報を持たない点に着目する。そこで、低品質なシーンテキストをより堅牢に認識できるように、意味情報を強化したエンコーダデコーダフレームワークを提案する。本フレームワークでは、意味情報がエンコーダモジュールにおいて教師信号として用いられ、デコーダモジュールにおいて初期化に活用される。特に、最先端のASTER手法を本提案フレームワーク内に実装する例として統合した。広範な実験により、提案フレームワークが低品質なテキスト画像に対してより高い堅牢性を示し、複数のベンチマークデータセットにおいて最先端の性能を達成することが確認された。