2ヶ月前

ジオメトリ正規化ネットワークによる高精度なシーンテキスト検出

Youjiang Xu; Jiaqi Duan; Zhanghui Kuang; Xiaoyu Yue; Hongbin Sun; Yue Guan; Wayne Zhang
ジオメトリ正規化ネットワークによる高精度なシーンテキスト検出
要約

大規模な幾何学的変動(例えば、向き)は、シーンテキスト検出における主要な課題である。本研究では、まずネットワークがシーンテキストの検出に際して幾何学的変動を学習する能力について実験を行い、ネットワークが限られた範囲のテキスト幾何学的変動しか処理できないことを確認した。次に、各ブランチが1つのスケール正規化ユニットと1つの向き正規化ユニットから構成される新しい多ブランチ型の幾何学正規化モジュール(Geometry Normalization Module, GNM)を提案し、少なくとも1つのブランチを通じて各テキストインスタンスを所望の標準的な幾何学的範囲に正規化することを目指した。GNMは汎用性が高く、既存の畳み込みニューラルネットワークベースのテキスト検出器に容易に組み込むことができ、エンドツーエンドの幾何学正規化ネットワーク(Geometry Normalization Networks, GNNets)を構築することができる。さらに、一様な幾何学的変動分布からテキストインスタンスをサンプリングおよび拡張することでGNNetsを効果的に訓練するための幾何学認識訓練スキームを提案した。最後に、ICDAR 2015およびICDAR 2017 MLTの人気ベンチマークでの実験結果により、当手法がF値で88.52および74.54という優れた成績を達成し、現行の最先端アプローチ全てを大幅に上回ることが示された。

ジオメトリ正規化ネットワークによる高精度なシーンテキスト検出 | 最新論文 | HyperAI超神経