8日前
ABCNet:適応型ベジェ曲線ネットワークを用いたリアルタイムシーンテキストスポットティング
Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang

要約
シーンテキスト検出および認識は、近年ますます注目される研究分野となっている。既存の手法は概ね2つのカテゴリに分けられる:文字ベース法とセグメンテーションベース法。しかし、これらの手法はいずれも文字のアノテーションコストが高かったり、複雑なパイプラインを維持する必要があり、リアルタイム応用には適さない傾向にある。本研究では、アダプティブ・ベジェ曲線ネットワーク(ABCNet)を提案することでこの問題に取り組む。本研究の貢献は以下の3点である。1)本研究では、パラメータ化されたベジェ曲線を用いて任意形状のテキストをアダプティブに適合させる初めての試みである。2)任意形状のテキストインスタンスから高精度な畳み込み特徴を抽出するため、新規のベジェアライン(BezierAlign)レイヤーを設計した。これにより、従来手法と比較して精度が著しく向上した。3)標準的なバウンディングボックス検出と比較して、ベジェ曲線による検出は計算オーバーヘッドをほとんど増加させないため、効率性と精度の両面で優れた性能を発揮する。Total-TextおよびCTW1500という任意形状テキストを対象としたベンチマークデータセットにおける実験結果から、ABCNetは最先端の精度を達成するとともに、処理速度も大幅に向上していることが示された。特にTotal-Textでは、リアルタイム版において最近の最先端手法よりも10倍以上高速でありながら、競争力のある認識精度を維持している。コードは https://tinyurl.com/AdelaiDet にて公開されている。