2ヶ月前
TextSnake: 任意の形状のテキスト検出のための柔軟な表現
Long, Shangbang ; Ruan, Jiaqiang ; Zhang, Wenjie ; He, Xin ; Wu, Wenhao ; Yao, Cong

要約
深層ニューラルネットワークと大規模データセットの駆動により、シーンテキスト検出手法はここ数年で大幅に進歩し、様々な標準ベンチマークでの性能記録を継続的に更新してきました。しかし、テキストを表現するために採用されている形式(軸方向矩形、回転矩形、四角形)の制限により、曲線的なテキストなどのより自由な形状を持つテキストインスタンスを扱う際には既存の手法が不足することがあります。このような問題に対処するため、私たちは水平、向き付き、曲線的な形式のテキストインスタンスを効果的に表現できるより柔軟な表現方法である「TextSnake」を提案します。TextSnakeでは、各ディスクは対称軸を中心とした順序付けられた重複するディスクの列としてテキストインスタンスが描写され、それぞれには可変の半径と向きが関連付けられます。これらの幾何学的属性は完全畳み込みネットワーク(FCN)モデルによって推定されます。実験において、TextSnakeに基づくテキスト検出器は自然画像中の曲線的なテキストに特化した新規ベンチマークであるTotal-TextとSCUT-CTW1500において最先端または同等の性能を達成しており、広く使用されているICDAR 2015およびMSRA-TD500データセットでも同様です。特に、TextSnakeはF値においてベースラインよりも40%以上優れた性能を示しています。