11日前

SEE:セミスーパーバイズドエンドツーエンドシーンテキスト認識への道

{Christian Bartz, Haojin Yang, Christoph Meinel}
SEE:セミスーパーバイズドエンドツーエンドシーンテキスト認識への道
要約

自然シーン画像内のテキストを検出・認識することは、依然として困難な課題であり、完全に解決されたわけではない。近年、少なくとも2つのサブタスク(テキスト検出とテキスト認識)のうちのいずれかを解決しようとする新しいシステムが多数提案されている。本論文では、シーンテキストの検出と認識に向けた半教師付きニューラルネットワークの一つとして、エンド・ツー・エンドで最適化可能なSEEを提案する。既存の多くの手法は、複数の深層ニューラルネットワークと複数の前処理ステップを組み合わせているが、それとは異なり、本研究では自然画像からテキストの検出と認識を半教師付き学習の形で行える単一の深層ニューラルネットワークの構築を提案する。SEEは、画像内のテキスト領域を検出する能力を持つ空間変換ネットワーク(spatial transformer network)と、検出されたテキスト領域を入力としてそのテキスト内容を認識するテキスト認識ネットワークを統合し、同時に学習するネットワークである。本研究で提案する新規アプローチの基本的なアイデアを提示し、標準ベンチマークデータセットを用いた多数の実験を通じてその有効性を検証した。実験の結果、競争力のある性能を達成した。

SEE:セミスーパーバイズドエンドツーエンドシーンテキスト認識への道 | 最新論文 | HyperAI超神経