Command Palette
Search for a command to run...
コーナーの局所化と領域セグメンテーションを用いた多方向的シーンテキスト検出
コーナーの局所化と領域セグメンテーションを用いた多方向的シーンテキスト検出
Lyu Pengyuan Yao Cong Wu Wenhao Yan Shuicheng Bai Xiang
概要
これまでの深層学習に基づく最先端のシーンテキスト検出手法は、概ね二つのカテゴリに分類できる。第一のカテゴリは、シーンテキストを一般の物体の一種として扱い、一般物体検出の枠組みに従ってテキストボックスの位置を回帰することで検出を行うものであるが、シーンテキストの任意の向きや大きなアスペクト比という課題に直面している。第二のカテゴリは、テキスト領域を直接セグメンテーションするものであるが、多くの場合、複雑な後処理を必要とする。本論文では、これらの二つのアプローチの長所を統合しつつ、それぞれの短所を回避する手法を提案する。具体的には、テキストバウンディングボックスの角点を検出するとともに、相対的な位置におけるテキスト領域のセグメンテーションを行うことで、シーンテキストを検出することを提案する。推論段階では、角点のサンプリングとグループ化により候補ボックスを生成し、それらをセグメンテーションマップによってスコアリングし、NMS(非最大値抑制)により抑制する。従来の手法と比較して、本手法は長さが長い向きのテキストを自然に扱えるだけでなく、複雑な後処理を必要としない。ICDAR2013、ICDAR2015、MSRA-TD500、MLT、およびCOCO-Textにおける実験結果から、本手法は精度と効率の両面で優れたまたは同等の性能を達成することが示された。VGG16をベースとした場合、ICDAR2015ではF値84.3%、MSRA-TD500では81.5%を達成した。