HyperAIHyperAI

Command Palette

Search for a command to run...

画像に基づくシーケンス認識のためのエンドツーエンドで学習可能なニューラルネットワークおよびそのシーンテキスト認識への応用

Baoguang Shi Xiang Bai Cong Yao

概要

画像に基づくシーケンス認識は、コンピュータビジョンにおける長年の研究テーマです。本論文では、画像に基づくシーケンス認識の中で最も重要かつ困難なタスクの一つであるシーンテキスト認識の問題を調査します。特徴抽出、シーケンスモデリング、およびトランスクリプションを統一されたフレームワークに統合する新しいニューラルネットワークアーキテクチャを提案します。既存のシーンテキスト認識システムと比較して、提案されたアーキテクチャには以下の4つの独自の特性があります:エンドツーエンドで学習可能であり、既存のアルゴリズムの多くが個々のコンポーネントを別々に学習および調整している点とは対照的です。任意の長さのシーケンスを自然に処理でき、文字分割や水平スケール正規化を必要としません。事前に定義された語彙に制限されず、辞書なしと辞書ありのシーンテキスト認識タスクにおいてともに優れた性能を達成しています。効果的でありながらもるmuch smaller model(はるかに小さなモデル)を生成し、実世界での応用シナリオにおいてより実践的です。IIIT-5K、Street View Text、ICDARデータセットなどの標準的なベンチマークでの実験結果は、提案されたアルゴリズムが先行技術よりも優れていることを示しています。さらに、提案されたアルゴリズムは画像に基づく楽譜認識タスクでも良好な性能を発揮しており、その汎用性が明確に確認されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています