Command Palette
Search for a command to run...
ピラミッドマスクテキスト検出器
ピラミッドマスクテキスト検出器
Jingchao Liu; Xuebo Liu; Jie Sheng; Ding Liang; Xin Li; Qingjie Liu
概要
シーンテキスト検出は、シーンテキスト認識システムの重要なステップであり、自然なシーン画像中のテキストインスタンスを自動的に位置づけることを目的としています。最近の試みでは、Mask R-CNNを活用してシーンテキスト検出タスクをインスタンスセグメンテーション問題として定式化し、著しい性能向上を達成しています。本論文では、Mask R-CNNに基づく新しいフレームワークであるピラミッドマスクテキストデテクター(Pyramid Mask Text Detector: PMTD)を提案します。既存のMask R-CNNベースの手法が生成するバイナリーテキストマスクとは異なり、PMTDは位置情報に基づく監督の下でピクセルレベルの回帰を行い、各テキストインスタンスに対してより情報量の多いソフトテキストマスクを生成します。テキストボックスの生成に関しては、PMTDは得られた2次元ソフトマスクを3次元空間に再解釈し、新しい平面クラスタリングアルゴリズムを導入することで3次元形状に基づいて最適なテキストボックスを導き出します。標準データセットでの実験結果から、提案されたPMTDが一貫したかつ顕著な改善をもたらし、最先端の手法を明確に上回ることが示されました。特にICDAR 2017 MLTデータセットにおいてF値80.13%を達成しています。