
要約
最新のシーンテキスト検出アルゴリズムの多くは、バウンディングボックス回帰に依存する深層学習ベースの手法であり、少なくとも2種類の予測を行う:テキスト/非テキスト分類と位置回帰です。これらの手法において、回帰はバウンディングボックスの取得に重要な役割を果たしますが、必須ではありません。なぜなら、テキスト/非テキスト予測は自体に完全な位置情報が含まれるセマンティックセグメンテーションの一形態とみなすことができるからです。しかし、シーン画像中のテキストインスタンスはしばしば非常に近接しており、セマンティックセグメンテーションによってそれらを分離することが非常に困難であるため、インスタンスセグメンテーションが必要となります。本論文では、インスタンスセグメンテーションに基づく新しいシーンテキスト検出アルゴリズムであるPixelLink(ピクセルリンク)を提案します。まず、同じインスタンス内のピクセルを連結することでテキストインスタンスをセグメント化し、次に位置回帰なしでセグメンテーション結果から直接テキストのバウンディングボックスを抽出します。実験結果によると、回帰に基づく手法と比較してPixelLinkはいくつかのベンチマークで同等または優れた性能を達成しながら、多くの訓練イタレーションと少ない訓練データを必要とするという特徴があります。