6ヶ月前

概要

マルチオリエンテーションシーンテキスト検出は近年、注目を集める研究分野となっている。従来の手法は、通常四角形（四辺形）の形状を用いて単語やテキストラインを直接予測していたが、多くの場合、一貫性のあるラベル付けの重要性が軽視されてきた。特に大量のデータを含む学習プロセスにおいて、一貫性のあるラベル付けは安定した訓練を維持するために極めて重要である。本研究では、このような問題を解決するため、新しい手法である「Orderless Box Discretization（OBD）」を提案する。OBDは、四角形バウンディングボックスを、すべての潜在的な水平および垂直位置を含む複数のキーエッジに離散化する。正確な頂点位置を復元するため、シンプルかつ効果的なマッチング手順を導入し、四角形バウンディングボックスを再構成する。このアプローチにより、学習プロセスに大きな影響を与える曖昧性の問題を効果的に解決できる。さらに、定量的に本手法の有効性を検証するため、広範なアブレーションスタディを実施した。特に重要なのは、OBDを基盤として、複数の改良手法がもたらす影響を詳細に分析した点であり、これにより他の研究者が最先端のテキスト検出器の構築を促進できる可能性がある。OBDとこれらの有用な改良を組み合わせることで、ICDAR 2015やMLTを含むさまざまなベンチマークにおいて、最先端の性能を達成した。また、最近開催されたICDAR2019 Robust Reading Challengeにおける「看板上の中国語テキスト読み取り」タスクでは、第1位を獲得し、本手法の優れた性能を実証した。コードは以下のURLから公開されている：https://git.io/TextDet。

ソースPDF