2ヶ月前

自然画像におけるテキスト位置特定のための合成データ

Ankush Gupta; Andrea Vedaldi; Andrew Zisserman
自然画像におけるテキスト位置特定のための合成データ
要約

本論文では、自然画像におけるテキスト検出の新しい手法を紹介します。この手法は以下の2つの貢献から構成されています:第一に、雑多な背景にテキストを合成するための高速かつスケーラブルなエンジンです。このエンジンは、既存の背景画像に合成テキストを自然に重ね合わせ、局所的な3次元シーンの幾何学を考慮します。第二に、生成された合成画像を使用して、Fully-Convolutional Regression Network (FCRN) を訓練します。FCRN は画像内のすべての位置と複数のスケールで効率的にテキスト検出とバウンディングボックス回帰を行うことができます。また、FCRN が最近導入された YOLO 検出器や深層学習に基づく他のエンドツーエンド物体検出システムとの関係についても議論します。得られた検出ネットワークは、自然画像におけるテキスト検出の現行方法を大幅に上回り、標準的な ICDAR 2013 ベンチマークにおいて F値 84.2% を達成しています。さらに、GPU 上で秒間15枚の画像処理が可能です。