6ヶ月前

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

コンピュータビジョン

and Xiang Bai Mingkun Yang Xinggang Wang Pengyuan Lyu Cong Yao Baoguang Shi

概要

近年、シーンテキスト認識はその幅広い応用分野における重要性から、学術界および産業界の関心を大きく集めている。文書テキストを対象とした光学文字認識（OCR）システムはすでに成熟しているものの、シーンテキスト認識は依然として大きな課題である。背景、外観、レイアウトの多様な変化が顕著であり、従来のOCR手法では効果的に対処できない。シーンテキスト認識の近年の進展は、深層学習に基づく認識モデルの成功に支えられている。その中には、畳み込みニューラルネットワーク（CNN）を用いて文字単位でテキストを認識する手法、CNNを用いて単語を分類する手法、およびCNNと再帰型ニューラルネットワーク（RNN）を組み合わせて文字列を認識する手法が含まれる。これらの手法は高い成果を上げているが、水平かつ正面方向でない、曲がったレイアウトを持つなど、不規則なテキスト（irregular text）に対する明示的な対処は行っていない。自然シーンでは不規則なテキストが頻繁に出現する。図1に示すように、回転したテキスト、透視変形テキスト[49]、曲線状のテキストなどが典型的な例である。こうした不規則性に対して不変性を備えて設計されていない従来の手法は、こうしたテキストの認識において困難を抱えることが多い。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

コンピュータビジョン

and Xiang Bai Mingkun Yang Xinggang Wang Pengyuan Lyu Cong Yao Baoguang Shi

概要

近年、シーンテキスト認識はその幅広い応用分野における重要性から、学術界および産業界の関心を大きく集めている。文書テキストを対象とした光学文字認識（OCR）システムはすでに成熟しているものの、シーンテキスト認識は依然として大きな課題である。背景、外観、レイアウトの多様な変化が顕著であり、従来のOCR手法では効果的に対処できない。シーンテキスト認識の近年の進展は、深層学習に基づく認識モデルの成功に支えられている。その中には、畳み込みニューラルネットワーク（CNN）を用いて文字単位でテキストを認識する手法、CNNを用いて単語を分類する手法、およびCNNと再帰型ニューラルネットワーク（RNN）を組み合わせて文字列を認識する手法が含まれる。これらの手法は高い成果を上げているが、水平かつ正面方向でない、曲がったレイアウトを持つなど、不規則なテキスト（irregular text）に対する明示的な対処は行っていない。自然シーンでは不規則なテキストが頻繁に出現する。図1に示すように、回転したテキスト、透視変形テキスト[49]、曲線状のテキストなどが典型的な例である。こうした不規則性に対して不変性を備えて設計されていない従来の手法は、こうしたテキストの認識において困難を抱えることが多い。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています