7ヶ月前

畳み込みニューラルネットワーク

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

and J. Han. K.-Y. K. Wong W. Liu Z. Su C. Chen

概要

本稿では、シーンテキストの認識を目的として、新しい空間注意力リジッドネットワーク（STAR-Net）を提案する。本STAR-Netは、自然画像におけるテキストの歪みを除去するための空間変換器（spatial transformer）を活用した空間注意力機構を備えている。これにより、後続の特徴抽出器は歪みの影響を受けずに、補正されたテキスト領域に焦点を当てて特徴を抽出することが可能となる。また、本ネットワークはリジッド畳み込みブロック（residue convolutional blocks）を用いて極めて深い特徴抽出器を構築しており、この細粒度な認識タスクにおいて識別性の高いテキスト特徴を効果的に抽出する上で不可欠である。空間注意力機構とリジッド畳み込みブロックを統合することにより、STAR-Netはシーンテキスト認識における最深のエンド・トゥ・エンド学習可能なニューラルネットワークとなっている。5つの公開ベンチマークデータセットを用いた実験の結果、歪みが少ないシーンテキストに対しては、最先端の手法と同等の性能を達成し、歪みが顕著なシーンテキストに対しては、それらの手法を上回る性能を示した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

畳み込みニューラルネットワーク

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

and J. Han. K.-Y. K. Wong W. Liu Z. Su C. Chen

概要

本稿では、シーンテキストの認識を目的として、新しい空間注意力リジッドネットワーク（STAR-Net）を提案する。本STAR-Netは、自然画像におけるテキストの歪みを除去するための空間変換器（spatial transformer）を活用した空間注意力機構を備えている。これにより、後続の特徴抽出器は歪みの影響を受けずに、補正されたテキスト領域に焦点を当てて特徴を抽出することが可能となる。また、本ネットワークはリジッド畳み込みブロック（residue convolutional blocks）を用いて極めて深い特徴抽出器を構築しており、この細粒度な認識タスクにおいて識別性の高いテキスト特徴を効果的に抽出する上で不可欠である。空間注意力機構とリジッド畳み込みブロックを統合することにより、STAR-Netはシーンテキスト認識における最深のエンド・トゥ・エンド学習可能なニューラルネットワークとなっている。5つの公開ベンチマークデータセットを用いた実験の結果、歪みが少ないシーンテキストに対しては、最先端の手法と同等の性能を達成し、歪みが顕著なシーンテキストに対しては、それらの手法を上回る性能を示した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています