要約
近年、シーンテキスト認識において、並列分離型エンコーダデコーダ(PDED)フレームワークがその柔軟性と効率性から一般的なトレンドとなっている。しかし、このフレームワークで用いられる並列位置注意力モジュール(PPAM)において、クエリ(位置情報)とキー(文脈情報および位置情報)の間で情報内容に不一致が生じるため、難易度の高いサンプル(例:ぼやけたテキスト、不規則なテキスト、低品質な画像など)に対して視覚的不整合が発生しやすくなるという課題がある。本論文では、この問題に対処するため、新たに設計された並列文脈注意力モジュール(PCAM)を元のPPAMに直列接続した二重並列注意力ネットワーク(DPAN)を提案する。PCAMでは、PPAMから得られた視覚特徴を入力とし、双方向言語モデルを用いて言語的文脈情報を統合することで、より適切なクエリを生成する。これにより、PCAM内でのクエリとキーの情報内容の整合性を確保でき、より正確な視覚的局所情報(visual glimpses)の生成を可能にし、全体のPDEDフレームワークの精度と耐障害性を向上させる。実験結果により、提案するPCAMの有効性が確認され、注意力機構においてクエリとキーの情報一貫性を維持することが重要であることが示された。正規テキストおよび不規則テキストを含む6つのベンチマークにおいて、DPANは既存の最先端手法を大きく上回り、新たなSOTA(State-of-the-Art)性能を達成した。コードは以下のURLで公開されている:https://github.com/Jackandrome/DPAN。