TextField: 深層方向フィールドを学習して不規則なシーンテキスト検出を行う

シーンテキスト検出は、シーンテキスト読み取りシステムにおいて重要なステップです。主な課題は、サイズやアスペクト比の大幅な変動、任意の向きや形状にあります。深層学習の最近の進歩により、多方向テキスト検出において著しい性能が達成されています。しかし、水平バウンディングボックス、回転矩形、または四角形などの制限されたテキスト表現(e.g., horizontal bounding boxes, rotated rectangles, or quadrilaterals)のために、曲線テキストの検出性能は急激に低下します。実際には自然環境で非常に一般的である曲線テキストを検出することは大きな関心事であり、本論文では不規則なシーンテキストを検出する新しいテキスト検出器「TextField」を提案します。具体的には、各テキストポイントから最も近いテキスト境界へ向かって離れる方向フィールドを学習します。この方向フィールドは2次元ベクトルの画像として表現され、完全畳み込みニューラルネットワークを通じて学習されます。方向フィールドはバイナリテキストマスクと隣接するテキストインスタンスを分離するために使用される方向情報を両方エンコードしており、これは古典的なセグメンテーションベースの手法にとって難しい課題です。学習した方向フィールドに基づいて、単純かつ効果的なモルフォロジーに基づく後処理を適用して最終的な検出を行います。実験結果は、提案されたTextFieldがTotal-TextおよびCTW1500という2つの曲線テキストデータセットで最新手法に対して大幅に優れた性能(それぞれ28%と8%)を示し、また多方向データセット(ICDAR 2015およびMSRA-TD500)でも非常に競争力のある性能を達成していることを示しています。さらに、TextFieldは未見のデータセットへの汎化能力も高いです。コードはhttps://github.com/YukangWang/TextField で利用可能です。