16日前

TPS++:シーンテキスト認識のための注意機構強化型Thin-Plate Spline

Tianlun Zheng, Zhineng Chen, Jinfeng Bai, Hongtao Xie, Yu-Gang Jiang
TPS++:シーンテキスト認識のための注意機構強化型Thin-Plate Spline
要約

シーンテキスト認識器にとって、テキストの不規則な形状は大きな課題をもたらす。これに対処するため、薄板スプライン(Thin-Plate Spline: TPS)を用いた補正手法は広く有効とされている。しかし、現行のTPS変換パラメータの計算は、回帰されたテキスト境界の品質に完全に依存しており、テキストの内容情報を無視するため、著しく歪んだテキストに対しては満足のいく補正結果が得られないことが多い。本研究では、初めて注意機構(attention mechanism)をテキスト補正に組み込んだ、拡張型TPS変換「TPS++」を提案する。TPS++は、前景制御点の回帰と、コンテンツに基づく注意スコアの推定を統合的なプロセスとして定式化し、専用に設計されたゲート付き注意ブロック(gated-attention block)によって注意スコアを計算する。これにより、より柔軟でコンテンツに適応した補正器を構築し、後続の認識器が読み取りやすい自然なテキスト補正を実現する。さらに、TPS++は認識器と一部の特徴抽出バックボーンを共有し、画像レベルではなく特徴レベルでの補正を実施することで、パラメータ数および推論時間の増加を最小限に抑える。公開ベンチマークにおける実験結果から、TPS++は認識性能を一貫して向上させ、最先端の精度を達成することが確認された。また、異なるバックボーンや認識器に対して優れた汎化性能を示した。コードは以下のURLで公開されている:https://github.com/simplify23/TPS_PP。

TPS++:シーンテキスト認識のための注意機構強化型Thin-Plate Spline | 最新論文 | HyperAI超神経