2ヶ月前

Pyramid Attention Network を使用した Mask R-CNN によるシーンテキスト検出

Huang, Zhida ; Zhong, Zhuoyao ; Sun, Lei ; Huo, Qiang
Pyramid Attention Network を使用した Mask R-CNN によるシーンテキスト検出
要約

本論文では、自然環境画像から多方向性および曲線的な文字を統一的に堅牢に検出できる新しいMask R-CNNベースの文字検出手法を提案します。文字検出タスクにおけるMask R-CNNの特徴表現能力を向上させるために、ピラミッドアテンションネットワーク(Pyramid Attention Network: PAN)をMask R-CNNの新たなバックボーンネットワークとして使用することを提案します。実験結果は、PANが文字類似背景による誤警報をより効果的に抑制できることを示しています。我々の提案手法は、単一スケールおよび単一モデルテストのみを使用することで、多方向性(ICDAR-2015, ICDAR-2017 MLT)および曲線的(SCUT-CTW1500)な文字検出ベンチマークタスクにおいて優れた性能を達成しました。