野生環境での曲線テキスト検出:新しいデータセットと新しい解決策

近年、シーンテキスト検出において大きな進歩が見られています。検出方法は、軸に合わせた矩形から回転矩形へ、さらに四角形へと進化しています。しかし、現在のデータセットには曲線テキストが非常に少ないのが現状です。曲線テキストは看板や製品名など、シーン画像で広く観察されるものです。野生環境での曲線テキスト読み取りに対する関心を高めるため、本論文では1,500枚の画像(訓練用1,000枚、テスト用500枚)に1万件以上のテキストアノテーションを含む曲線テキストデータセット「CTW1500」を構築しました。このデータセットに基づき、経験的な組み合わせなしで直接曲線テキストを検出できる多角形ベースの曲線テキスト検出器(CTD: Curve Text Detector)を提案します。さらに、再帰的な横方向および縦方向オフセット接続(TLOC: Transverse and Longitudinal Offset Connection)をシームレスに統合することで、提案手法は位置オフセット間の内在的な接続を学習するためのエンドツーエンド学習が可能となります。これにより、CTDはコンテクスト情報を探索し、点を独立して予測する代わりにより滑らかで正確な検出が可能になります。また、非多角形抑制(NPS: Non-Polygon Suppress)と多角形非最大値抑制(PNMS: Polygonal Non-Maximum Suppression)という単純ながら効果的な2つの後処理手法も提案し、検出精度の向上に寄与します。さらに、本論文で提案された手法は汎用的に設計されており、追加の努力なしに矩形または四角形バウンディングボックスを使用して訓練することも可能です。CTW-1500における実験結果は、軽量なバックボーンのみを使用した当社の手法が最新手法に対して大幅に優れていることを示しています。曲線サブセットまたは非曲線サブセットでのみ評価を行った場合でも、CTD + TLOCは最良の結果を得ています。コードは https://github.com/Yuliang-Liu/Curve-Text-Detector で公開されています。