7ヶ月前

概要

画像に基づくシーケンス認識は、コンピュータビジョンにおける長年の研究テーマです。本論文では、画像に基づくシーケンス認識の中で最も重要かつ困難なタスクの一つであるシーンテキスト認識の問題を調査します。特徴抽出、シーケンスモデリング、およびトランスクリプションを統一されたフレームワークに統合する新しいニューラルネットワークアーキテクチャを提案します。既存のシーンテキスト認識システムと比較して、提案されたアーキテクチャには以下の4つの独自の特性があります：エンドツーエンドで学習可能であり、既存のアルゴリズムの多くが個々のコンポーネントを別々に学習および調整している点とは対照的です。任意の長さのシーケンスを自然に処理でき、文字分割や水平スケール正規化を必要としません。事前に定義された語彙に制限されず、辞書なしと辞書ありのシーンテキスト認識タスクにおいてともに優れた性能を達成しています。効果的でありながらもるmuch smaller model（はるかに小さなモデル）を生成し、実世界での応用シナリオにおいてより実践的です。IIIT-5K、Street View Text、ICDARデータセットなどの標準的なベンチマークでの実験結果は、提案されたアルゴリズムが先行技術よりも優れていることを示しています。さらに、提案されたアルゴリズムは画像に基づく楽譜認識タスクでも良好な性能を発揮しており、その汎用性が明確に確認されています。

ソースPDF