8ヶ月前

概要

形状に頑健なテキスト検出の課題は以下の2つの側面にあります：1）既存の四角形バウンディングボックスを基にした検出器は、任意の形状を持つテキストを完全に矩形で囲むことが難しいため、その位置を特定するのが困難です；2）ピクセル単位のセグメンテーションを基にした検出器は、互いに非常に近接しているテキストインスタンスを分離できない場合があります。これらの問題に対処するため、私たちは新しい「Progressive Scale Expansion Network（PSENet）」を提案します。これは、各テキストインスタンスに対して複数の予測を行うセグメンテーションベースの検出器として設計されています。これらの予測は、元のテキストインスタンスを異なるスケールに縮小して生成された様々な「カーネル」に対応しています。その結果、最終的な検出は、最小スケールのカーネルから最大かつ完全な形状を持つテキストインスタンスへと徐々に拡大する進行的なスケール拡張アルゴリズムを通じて行われます。最小カーネル間に大きな幾何学的余裕があることから、当方法は隣接するテキストインスタンスを区別し、任意の形状に対して頑健であることが確認されています。ICDAR 2015およびICDAR 2017 MLTベンチマークでの最先端の結果がPSENetの高い効果性をさらに証明しています。特に、曲線テキストデータセットSCUT-CTW1500において、PSENetは従来の最高記録よりも絶対値で6.37%上回っています。コードはhttps://github.com/whai362/PSENetで公開される予定です。

ソースPDF コードを表示