Command Palette
Search for a command to run...
ワイルドな環境における曲線テキストの検出:新データセットと新ソリューション
ワイルドな環境における曲線テキストの検出:新データセットと新ソリューション
Yuliang Liu Lianwen Jin Shuaitao Zhang Sheng Zhang
概要
近年、シーンテキスト検出は著しい進展を遂げている。検出手法は、軸平行な長方形から回転長方形へ、さらに四角形へと進化している。しかし、現在のデータセットには曲線テキストが極めて少ない。実際のシーン画像、たとえば看板や商品名などには広く見られる曲線テキストである。野外における曲線テキストの認識への関心を高めるために、本論文では、1,500枚の画像(訓練用1,000枚、テスト用500枚)に10,000件以上のテキストアノテーションを含む、曲線テキスト専用データセット「CTW1500」を構築した。このデータセットを基盤として、本研究では、経験的な組み合わせなしに直接曲線テキストを検出可能な、ポリゴンベースの曲線テキスト検出器(CTD)を初めて提案する。さらに、再帰的横方向および縦方向オフセット接続(TLOC)をシームレスに統合することで、本手法はエンド・トゥ・エンドで学習可能となり、位置オフセット間の内在的な関係を学習できる。これにより、CTDは点を独立に予測するのではなく、文脈情報を活用して検出を行うことが可能となり、より滑らかで高精度な検出が実現される。また、検出精度をさらに向上させるため、シンプルながら有効な2つの後処理手法「非ポリゴン抑制(NPS)」および「ポリゴン非最大抑制(PNMS)」を提案する。さらに、本手法は汎用的な設計となっており、特別な追加作業なしに矩形または四角形のバウンディングボックスを用いても学習可能である。CTW1500における実験結果から、本手法は軽量なバックボーンを用いるだけで、従来の最先端手法を大きく上回ることを示した。曲線テキストまたは非曲線テキストのサブセットに限定して評価しても、CTD + TLOCは依然として最良の性能を達成している。コードは https://github.com/Yuliang-Liu/Curve-Text-Detector で公開されている。