2ヶ月前

STN-OCR: テキスト検出とテキスト認識のための単一のニューラルネットワーク

Christian Bartz; Haojin Yang; Christoph Meinel
STN-OCR: テキスト検出とテキスト認識のための単一のニューラルネットワーク
要約

自然環境画像におけるテキストの検出と認識は、困難であり、なお完全に解決されていない課題です。近年、これらの2つの部分課題(テキスト検出とテキスト認識)の少なくとも1つを解決しようとする新しいシステムがいくつか提案されています。本論文では、シーンテキスト認識向けの半教師ありニューラルネットワークの開発の一歩として、エンドツーエンドで最適化可能なSTN-OCRを紹介します。既存の多くの研究が複数の深層ニューラルネットワークといくつかの前処理ステップを組み合わせているのに対し、我々は単一の深層ニューラルネットワークを使用して、自然環境画像からテキスト領域を検出し認識する半教師あり学習を行うことを提案します。STN-OCRは、画像内のテキスト領域を検出するための空間変換ネットワーク(Spatial Transformer Network)と、検出したテキスト領域から文字情報を認識するためのテキスト認識ネットワークを統合し、共同で学習するネットワークです。我々は、モデルが異なるタスク(文字や行の検出と認識)に対してどのように動作するかを調査しました。公開ベンチマークデータセットでの実験結果は、全体的なネットワーク構造に大きな変更を加えることなく、我々のモデルが様々な異なるタスクを処理できる能力を示しています。

STN-OCR: テキスト検出とテキスト認識のための単一のニューラルネットワーク | 最新論文 | HyperAI超神経