2ヶ月前
形状ロバストなテキスト検出を実現する進行スケール拡張ネットワーク
Wenhai Wang; Enze Xie; Xiang Li; Wenbo Hou; Tong Lu; Gang Yu; Shuai Shao

要約
シーンテキスト検出は、特に畳み込みニューラルネットワークの最近の発展により急速な進歩を遂げています。しかし、アルゴリズムが産業応用に移行するのを妨げる2つの課題が依然として存在しています。一方では、最先端のアルゴリズムの多くが任意形状のテキストを正確に位置づけることができない四角形バウンディングボックスを必要とします。他方では、互いに近接した2つのテキストインスタンスが誤検出を引き起こし、両方のインスタンスをカバーしてしまう可能性があります。従来、セグメンテーションベースのアプローチは最初の問題を緩和することができますが、通常は2つ目の課題を解決することはできません。これらの2つの課題に対処するために、本論文では新しいProgressive Scale Expansion Network(PSENet)を提案します。PSENetは各テキストインスタンスに対して異なるスケールのカーネルを生成し、最小スケールのカーネルを段階的に完全な形状を持つテキストインスタンスまで拡張します。最小スケールカーネル間に大きな幾何学的余裕があるため、当方法は近接したテキストインスタンスを分割するのに効果的であり、セグメンテーションベースの手法を使用して任意形状のテキストインスタンスを検出することが容易になります。CTW1500, Total-Text, ICDAR 2015, ICDAR 2017 MLTでの広範な実験により、PSENetの有効性が確認されました。特にCTW1500においては、長曲線テキストで構成されるデータセットでF値74.3%(27 FPS)を達成しており、最高F値82.2%は最先端アルゴリズムよりも6.6%優れています。コードは将来公開される予定です。