11日前

自己教師付き暗黙的グリフ注意機構を用いたテキスト認識

Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Xiaokang Yang, Wei Shen
自己教師付き暗黙的グリフ注意機構を用いたテキスト認識
要約

注目メカニズム(attention mechanism)は、文字レベルの表現を抽出できる能力により、シーンテキスト認識(STR)手法における実質的なモジュールとして定着している。これらの手法は、注目メカニズムの計算方法に応じて、非監督的注目(implicit attention)に基づくものと監督的注目(supervised attention)に基づくものに大別できる。具体的には、非監督的注目はシーケンスレベルのテキストアノテーションから学習され、監督的注目は文字レベルのバウンディングボックスアノテーションから学習される。非監督的注目は、文字の注目領域として粗い、あるいは誤った空間領域を抽出する傾向があり、アライメント・ドリフト(alignment-drifted)問題に陥りやすい。一方、監督的注目はこの問題を緩和できるが、文字カテゴリに依存するため、追加の手間のかかる文字レベルのバウンディングボックスアノテーションが必要となり、文字種が多様な言語を扱う場合、メモリ消費も著しく増加する。上記の課題に対処するため、本研究では、シーンテキスト認識に向けた新たな注目メカニズムである「自己監督的非監督グリフ注目」(Self-supervised Implicit Glyph Attention: SIGA)を提案する。SIGAは、自己監督的なテキストセグメンテーションと非監督的注目によるアライメントを統合的に用いて、テキスト画像内のグリフ構造を明確に抽出する。この抽出された構造が、追加の文字レベルアノテーションなしに注目メカニズムの正確性を向上させるための自己監督信号として機能する。実験結果により、SIGAは公開されているコンテキスト付きベンチマークおよび本研究が提供するコンテキストなしベンチマークにおいて、従来の注目メカニズムを用いたSTR手法と比較して、注目メカニズムの正確性および最終的な認識性能の両面で一貫して優れた性能を示した。