
要約
注目メカニズムを備えたエンコーダ・デコーダフレームワークは、シーンテキスト認識タスクにおいて広く利用されている。しかし、現在の最先端(SOTA)手法においては、入力テキスト画像の局所的視覚情報とグローバルな文脈情報の効率的な活用、およびシーン処理モジュール(エンコーダ)とテキスト処理モジュール(デコーダ)間の堅牢な相関性の面で、さらなる改善の余地がある。本論文では、これらの課題を克服し、性能のボトルネックを打破するため、表現力と相関性を強化したエンコーダ・デコーダフレームワーク(RCEED: Representation and Correlation Enhanced Encoder-Decoder Framework)を提案する。エンコーダモジュールでは、局所的視覚特徴、グローバル文脈特徴、位置情報が統合・融合され、サイズの小さい包括的な特徴マップが生成される。デコーダモジュールでは、シーン特徴空間とテキスト特徴空間間の相関性を強化するための2つの手法を採用している。1)デコーダの初期化は、エンコーダから出力される包括的特徴およびグローバルなグリムプスベクトルによってガイドされる。2)マルチヘッド一般化注目(Multi-Head General Attention)によって生成された特徴豊富なグリムプスベクトルが、RNNの反復処理および各時刻における文字予測を支援する。さらに、変動するテキストに対するモデルの汎化性能を向上させるために、LayerNorm-Dropout LSTMセルを独自に設計した。標準ベンチマーク上での広範な実験により、RCEEDがシーンテキスト認識タスク、特に不規則なテキストに対して優れた性能を発揮することが確認された。