11日前

FAST:最小限のカーネル表現を用いた高速任意形状テキスト検出

Zhe Chen, Jiahao Wang, Wenhai Wang, Guo Chen, Enze Xie, Ping Luo, Tong Lu
FAST:最小限のカーネル表現を用いた高速任意形状テキスト検出
要約

我々は、任意形状のシーンテキストを高精度かつ効率的に検出するためのフレームワーク「FAST(Faster Arbitrarily-shaped Text detector)」を提案する。近年の先進的なテキスト検出器は、複雑な後処理および手動設計されたネットワークアーキテクチャを採用しており、推論速度が低くなる傾向にある。これに対して、FASTは2つの新規設計を導入している。(1) 任意形状のテキストを表現するための最小限のカーネル表現(出力が1チャネルのみ)を設計するとともに、GPU並列処理を用いた効率的な後処理により、テキストラインの構築を極めて小さな時間オーバーヘッドで実現している。(2) テキスト検出に特化したネットワークアーキテクチャを探索することで、画像分類のためのネットワーク探索で得られるものよりも強力な特徴を抽出可能としている。これらの設計により、FASTはTotal Text、CTW1500、ICDAR 2015、MSRA-TD500など、いくつかの困難なデータセットにおいて、精度と効率の優れたトレードオフを達成している。例えば、FAST-TはTotal-Textデータセットにおいて152 FPSの速度で81.6%のF-measureを達成し、従来の最速手法と比較して精度で1.7ポイント、速度で70 FPS向上している。さらにTensorRTによる最適化を施すことで、推論速度は600 FPS以上にまで向上可能である。コードおよびモデルは、https://github.com/czczup/FAST にて公開予定である。

FAST:最小限のカーネル表現を用いた高速任意形状テキスト検出 | 最新論文 | HyperAI超神経