7ヶ月前

概要

シーンテキスト検出は、シーンテキスト認識システムの重要なステップであり、同時に困難な問題でもあります。一般的な物体検出とは異なり、シーンテキスト検出の主な課題は、自然画像中のテキストが任意の方向を向いており、サイズが小さく、アスペクト比に大きな変動があることです。本論文では、単一のネットワークフォワードパスで高精度かつ効率的に任意方向のシーンテキストを検出する、エンドツーエンドで学習可能な高速シーンテキスト検出器「TextBoxes++」を提案します。非最大値抑制以外の後処理は一切含まれていません。提案したTextBoxes++を4つの公開データセットで評価しました。すべての実験において、TextBoxes++はテキスト位置特定の精度と実行時間において競合する手法を上回りました。具体的には、1024×1024ピクセルのICDAR 2015偶発的テキスト画像に対して11.6fpsでf値0.817を達成し、768×768ピクセルのCOCO-Text画像に対して19.8fpsでf値0.5591を達成しました。さらに、テキスト認識器と組み合わせることで、TextBoxes++は人気のあるベンチマークでの単語スポットtingおよびエンドツーエンドのテキスト認識タスクにおいて最先端の手法を大幅に上回る性能を示しています。コードは以下のURLから入手可能です: https://github.com/MhLiao/TextBoxes_plusplus

ソースPDF