11日前

リアルタイムシーンテキスト検出における微分可能なバイナリ化

Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, Xiang Bai
リアルタイムシーンテキスト検出における微分可能なバイナリ化
要約

近年、シーンテキスト検出において、形状が多様なテキスト(例:曲線テキストなど)をより正確に表現できる点から、セグメンテーションに基づく手法が注目を集めている。しかし、セグメンテーションベースの検出では、二値化処理が必須であり、これはセグメンテーション手法によって生成された確率マップをテキストのバウンディングボックスまたは領域に変換するプロセスである。本論文では、セグメンテーションネットワーク内で二値化処理を実行可能なモジュール「Differentiable Binarization(DB)」を提案する。DBモジュールと同時に最適化されることで、セグメンテーションネットワークは二値化の閾値を適応的に設定可能となり、後処理を簡素化するとともに、テキスト検出性能の向上も実現する。単純なセグメンテーションネットワークをベースに、5つのベンチマークデータセット上でDBの性能向上を検証した結果、検出精度と速度の両面で一貫して最先端の性能を達成した。特に、軽量なバックボーンを用いる場合、DBによる性能向上は顕著であり、検出精度と効率の理想のトレードオフを見出すことが可能となる。具体的には、ResNet-18をバックボーンとして使用した場合、MSRA-TD500データセットにおいてF-measure 82.8を達成しつつ、62 FPSの処理速度を実現した。コードは以下のURLから公開されている:https://github.com/MhLiao/DB