7ヶ月前

オブジェクト検出

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

コンピュータビジョン

Ankush Gupta Andrea Vedaldi Andrew Zisserman

概要

本論文では、自然画像におけるテキスト検出の新しい手法を紹介します。この手法は以下の2つの貢献から構成されています：第一に、雑多な背景にテキストを合成するための高速かつスケーラブルなエンジンです。このエンジンは、既存の背景画像に合成テキストを自然に重ね合わせ、局所的な3次元シーンの幾何学を考慮します。第二に、生成された合成画像を使用して、Fully-Convolutional Regression Network (FCRN) を訓練します。FCRN は画像内のすべての位置と複数のスケールで効率的にテキスト検出とバウンディングボックス回帰を行うことができます。また、FCRN が最近導入された YOLO 検出器や深層学習に基づく他のエンドツーエンド物体検出システムとの関係についても議論します。得られた検出ネットワークは、自然画像におけるテキスト検出の現行方法を大幅に上回り、標準的な ICDAR 2013 ベンチマークにおいて F値 84.2% を達成しています。さらに、GPU 上で秒間15枚の画像処理が可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

オブジェクト検出

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

コンピュータビジョン

Ankush Gupta Andrea Vedaldi Andrew Zisserman

概要

本論文では、自然画像におけるテキスト検出の新しい手法を紹介します。この手法は以下の2つの貢献から構成されています：第一に、雑多な背景にテキストを合成するための高速かつスケーラブルなエンジンです。このエンジンは、既存の背景画像に合成テキストを自然に重ね合わせ、局所的な3次元シーンの幾何学を考慮します。第二に、生成された合成画像を使用して、Fully-Convolutional Regression Network (FCRN) を訓練します。FCRN は画像内のすべての位置と複数のスケールで効率的にテキスト検出とバウンディングボックス回帰を行うことができます。また、FCRN が最近導入された YOLO 検出器や深層学習に基づく他のエンドツーエンド物体検出システムとの関係についても議論します。得られた検出ネットワークは、自然画像におけるテキスト検出の現行方法を大幅に上回り、標準的な ICDAR 2013 ベンチマークにおいて F値 84.2% を達成しています。さらに、GPU 上で秒間15枚の画像処理が可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています