11日前
テキスト認識のためのデコープルドアテンションネットワーク
Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Canjie Luo, Xiaoxue Chen, Yaqiang Wu, Qianying Wang, Mingxiang Cai

要約
テキスト認識はその多様な応用可能性から、注目される研究分野となっている。最先端のテキスト認識手法は、アテンション機構に基づいている。しかし、多くのアテンション手法は、再帰的なアライメント操作に起因して深刻なアライメント問題を抱えている。このアライメント操作は、過去のデコード結果に依存するためである。この問題を解決するために、本研究では、アライメント操作を過去のデコード結果の使用から分離する「デカップルド・アテンションネットワーク(DAN)」を提案する。DANは、エンド・ツー・エンドで効果的かつ柔軟性に富み、高いロバスト性を持つテキスト認識器であり、以下の3つの構成要素からなる:1)入力画像から視覚的特徴を抽出する特徴エンコーダ;2)エンコーダから得られる視覚的特徴に基づいてアライメント操作を実行する畳み込み型アライメントモジュール;3)特徴マップとアテンションマップを共同で用いて最終予測を行うデカップルド・テキストデコーダ。実験結果から、DANはオフライン手書き文字認識および規則的/不規則なシーン内文字認識を含む複数のテキスト認識タスクにおいて、最先端の性能を達成することが示された。