8日前

TPSNet:任意形状シーンテキスト表現のための薄板スプラインの逆思考

Wei Wang, Yu Zhou, Jiahao Lv, Dayan Wu, Guoqing Zhao, Ning Jiang, Weiping Wang
TPSNet:任意形状シーンテキスト表現のための薄板スプラインの逆思考
要約

近年、シーンテキスト検出および認識の研究は、任意形状のテキストへと焦点を移しており、テキスト形状の表現はその根幹的な課題となっている。我々の見解では、理想的な表現はコンパクト性、完全性、効率性、および後続の認識処理における再利用性を兼ね備えているべきである。しかし、従来の表現手法は、一つ以上の側面で課題を抱えていた。一方、Thin-Plate-Spline(TPS)変換は、シーンテキスト認識において顕著な成果を上げており、その成功を踏まえ、本研究ではその利用方法を逆転させ、TPSを任意形状テキスト表現として洗練された表現手法として用いることを提案する。TPS表現は、コンパクトかつ完全であり、計算効率も高い。予測されたTPSパラメータを用いることで、検出されたテキスト領域を直ちにほぼ水平な形状に正規化(リクティフィケーション)でき、後続の認識処理を支援する。さらにTPS表現の潜在能力を最大限に引き出すために、境界整合損失(Border Alignment Loss)を導入した。これらの設計に基づき、テキスト検出器としてTPSNetを実装した。このモデルは、容易にテキストスポットティング(spotter)へと拡張可能である。多数の公開ベンチマークにおける広範な評価およびアブレーション研究により、本手法のテキスト表現およびスポットティング性能の有効性と優位性が実証された。特に、Artデータセットにおいて検出F-メジャーを4.4%(78.4% vs. 74.0%)向上させ、Total-TextデータセットではエンドツーエンドのスポットティングF-メジャーを5.0%(78.5% vs. 73.5%)改善した。これらの成果は、追加の装飾的な技術を用いずに達成されたものであり、顕著な性能向上を示している。

TPSNet:任意形状シーンテキスト表現のための薄板スプラインの逆思考 | 最新論文 | HyperAI超神経