6ヶ月前

オブジェクト検出

畳み込みニューラルネットワーク

ドキュメント理解

アプローチ／フレームワーク

自然言語処理

コンピュータビジョン

Zhe Chen Jiahao Wang Wenhai Wang Guo Chen Enze Xie Ping Luo Tong Lu

概要

我々は、任意形状のシーンテキストを高精度かつ効率的に検出するためのフレームワーク「FAST（Faster Arbitrarily-shaped Text detector）」を提案する。近年の先進的なテキスト検出器は、複雑な後処理および手動設計されたネットワークアーキテクチャを採用しており、推論速度が低くなる傾向にある。これに対して、FASTは2つの新規設計を導入している。(1) 任意形状のテキストを表現するための最小限のカーネル表現（出力が1チャネルのみ）を設計するとともに、GPU並列処理を用いた効率的な後処理により、テキストラインの構築を極めて小さな時間オーバーヘッドで実現している。(2) テキスト検出に特化したネットワークアーキテクチャを探索することで、画像分類のためのネットワーク探索で得られるものよりも強力な特徴を抽出可能としている。これらの設計により、FASTはTotal Text、CTW1500、ICDAR 2015、MSRA-TD500など、いくつかの困難なデータセットにおいて、精度と効率の優れたトレードオフを達成している。例えば、FAST-TはTotal-Textデータセットにおいて152 FPSの速度で81.6%のF-measureを達成し、従来の最速手法と比較して精度で1.7ポイント、速度で70 FPS向上している。さらにTensorRTによる最適化を施すことで、推論速度は600 FPS以上にまで向上可能である。コードおよびモデルは、https://github.com/czczup/FAST にて公開予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

オブジェクト検出

畳み込みニューラルネットワーク

ドキュメント理解

アプローチ／フレームワーク

自然言語処理

コンピュータビジョン

Zhe Chen Jiahao Wang Wenhai Wang Guo Chen Enze Xie Ping Luo Tong Lu

概要

我々は、任意形状のシーンテキストを高精度かつ効率的に検出するためのフレームワーク「FAST（Faster Arbitrarily-shaped Text detector）」を提案する。近年の先進的なテキスト検出器は、複雑な後処理および手動設計されたネットワークアーキテクチャを採用しており、推論速度が低くなる傾向にある。これに対して、FASTは2つの新規設計を導入している。(1) 任意形状のテキストを表現するための最小限のカーネル表現（出力が1チャネルのみ）を設計するとともに、GPU並列処理を用いた効率的な後処理により、テキストラインの構築を極めて小さな時間オーバーヘッドで実現している。(2) テキスト検出に特化したネットワークアーキテクチャを探索することで、画像分類のためのネットワーク探索で得られるものよりも強力な特徴を抽出可能としている。これらの設計により、FASTはTotal Text、CTW1500、ICDAR 2015、MSRA-TD500など、いくつかの困難なデータセットにおいて、精度と効率の優れたトレードオフを達成している。例えば、FAST-TはTotal-Textデータセットにおいて152 FPSの速度で81.6%のF-measureを達成し、従来の最速手法と比較して精度で1.7ポイント、速度で70 FPS向上している。さらにTensorRTによる最適化を施すことで、推論速度は600 FPS以上にまで向上可能である。コードおよびモデルは、https://github.com/czczup/FAST にて公開予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

FAST：最小限のカーネル表現を用いた高速任意形状テキスト検出 | 記事 | HyperAI超神経