2ヶ月前

ピクセル集約ネットワークを用いた効率的かつ正確な任意形状のテキスト検出

Wenhai Wang; Enze Xie; Xiaoge Song; Yuhang Zang; Wenjia Wang; Tong Lu; Gang Yu; Chunhua Shen
ピクセル集約ネットワークを用いた効率的かつ正確な任意形状のテキスト検出
要約

シーンテキスト検出は、シーンテキスト読み取りシステムの重要なステップであり、畳み込みニューラルネットワーク(Convolutional Neural Networks)の発展とともに急速に進歩してきました。しかし、実世界への応用を妨げる2つの主要な課題が依然として存在しています。第1の問題は、速度と精度のトレードオフです。第2の問題は、任意形状のテキストインスタンスをモデル化することです。最近、任意形状のテキスト検出に取り組むいくつかの手法が提案されていますが、これらは全体的なパイプラインの速度をほとんど考慮していないため、実際の応用では不足することがあります。本論文では、効率的かつ正確な任意形状テキスト検出器であるピクセル集約ネットワーク(Pixel Aggregation Network, PAN)を提案します。PANには低計算コストのセグメンテーションヘッドと学習可能な後処理が装備されています。より具体的には、セグメンテーションヘッドは特徴ピラミッド強化モジュール(Feature Pyramid Enhancement Module, FPEM)と特徴融合モジュール(Feature Fusion Module, FFM)で構成されています。FPEMはカスケード可能なU字型モジュールで、多段階情報を取り入れてより良いセグメンテーションをガイドすることができます。FFMは異なる深さを持つFPEMから提供される特徴量を集約し、最終的なセグメンテーション用の特徴量を作成します。学習可能な後処理はピクセル集約(Pixel Aggregation, PA)によって実現され、予測された類似ベクトルによりテキストピクセルを正確に集約することができます。いくつかの標準ベンチマークでの実験結果により、提案したPANの優位性が確認されました。特に注目に値するのは、CTW1500において当方法が84.2 FPSで競合他社と匹敵するF値79.9%を達成していることです。

ピクセル集約ネットワークを用いた効率的かつ正確な任意形状のテキスト検出 | 最新論文 | HyperAI超神経