Command Palette
Search for a command to run...
EAST:効率的かつ高精度なシーンテキスト検出器
EAST:効率的かつ高精度なシーンテキスト検出器
概要
シーンテキスト検出に関する従来のアプローチは、さまざまなベンチマークにおいてすでに有望な性能を達成している。しかし、深いニューラルネットワークモデルを用いても、パイプライン内の複数の段階やコンポーネントの相互作用によって全体の性能が制約されるため、困難な状況下では依然として限界に達する傾向がある。本研究では、自然シーンにおける高速かつ高精度なテキスト検出を実現する、シンプルでありながら強力なパイプラインを提案する。本パイプラインは、単一のニューラルネットワークにより、全画像上で任意の方向と四角形形状の単語またはテキスト行を直接予測することで、不要な中間ステップ(例:候補の集約や単語の分割)を排除する。本パイプラインの単純さにより、損失関数やニューラルネットワークアーキテクチャの設計に集中することが可能となる。ICDAR 2015、COCO-Text、MSRA-TD500 を含む標準データセットにおける実験結果から、提案手法が精度と効率の両面で最先端の手法を顕著に上回ることが示された。特に ICDAR 2015 データセットにおいて、720p解像度で13.2fpsの速度下でFスコア0.7820を達成した。