17日前

ワンショット自己依存型シーンテキストスポッター:分離しつつ協調的な検出と認識

Jingjing Wu, Pengyuan Lyu, Guangming Lu, Chengquan Zhang, Wenjie Pei
ワンショット自己依存型シーンテキストスポッター:分離しつつ協調的な検出と認識
要約

一般的なテキストスポットティング手法は、二段階のスポットティング枠組みに従っており、まずテキストインスタンスの境界を検出する段階を経て、その後に検出領域内でテキスト認識を行う。このような枠組みは著しい進展を遂げているものの、重要な限界として、テキスト認識の性能がテキスト検出の精度に強く依存しており、検出から認識へと誤差が伝播する可能性があることが挙げられる。本研究では、検出と認識を分離しつつ両タスクを共同で最適化することで、この限界を回避する単一ショット自己依存型シーンテキストスポットターv2(SRSTS v2)を提案する。具体的には、各潜在的なテキストインスタンスの周囲から代表的な特徴点をサンプリングし、これらのサンプリングされた点をガイドとして、テキスト検出と認識を並列に実行する。その結果、テキスト認識が検出結果に依存しなくなり、検出から認識への誤差伝播が緩和される。さらに、サンプリングモジュールは検出と認識の両方の教師信号に基づいて学習されるため、両タスク間の共同最適化と相互強化が可能となる。このようなサンプリング駆動型の並列スポットティングフレームワークの恩恵により、正確なテキスト境界の検出が困難な場合でも、テキストインスタンスを正しく認識できる。4つのベンチマークにおける広範な実験の結果、本手法は最先端のスポットティング手法と比較しても優れた性能を示した。

ワンショット自己依存型シーンテキストスポッター:分離しつつ協調的な検出と認識 | 最新論文 | HyperAI超神経