7ヶ月前

オブジェクト検出

セマンティックセグメンテーション

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Pengyuan Lyu Minghui Liao Cong Yao Wenhao Wu Xiang Bai

概要

最近、深層ニューラルネットワークを基にしたモデルが、シーンテキスト検出および認識の分野で主流となっています。本論文では、自然画像におけるテキスト検出と認識を同時に実現するシーンテキストスポットティングの問題について調査を行いました。シーンテキストスポットティング用のエンドツーエンド学習可能なニューラルネットワークモデルを提案します。提案されたモデルは、新しく発表されたMask R-CNNから着想を得た「Mask TextSpotter」と名付けられました。従来のエンドツーエンド学習可能な深層ニューラルネットワークでもテキストスポットティングを達成していましたが、Mask TextSpotterはセマンティックセグメンテーションを通じて正確なテキスト検出と認識を獲得する単純かつ滑らかなエンドツーエンド学習プロシージャを活用しています。さらに、曲線的な文字など不規則な形状を持つテキストインスタンスの処理においても、従来の方法よりも優れています。ICDAR2013、ICDAR2015およびTotal-Textでの実験結果は、提案手法がシーンテキスト検出およびエンドツーエンドテキスト認識タスクにおいて最先端の成果を達成していることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

オブジェクト検出

セマンティックセグメンテーション

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Pengyuan Lyu Minghui Liao Cong Yao Wenhao Wu Xiang Bai

概要

最近、深層ニューラルネットワークを基にしたモデルが、シーンテキスト検出および認識の分野で主流となっています。本論文では、自然画像におけるテキスト検出と認識を同時に実現するシーンテキストスポットティングの問題について調査を行いました。シーンテキストスポットティング用のエンドツーエンド学習可能なニューラルネットワークモデルを提案します。提案されたモデルは、新しく発表されたMask R-CNNから着想を得た「Mask TextSpotter」と名付けられました。従来のエンドツーエンド学習可能な深層ニューラルネットワークでもテキストスポットティングを達成していましたが、Mask TextSpotterはセマンティックセグメンテーションを通じて正確なテキスト検出と認識を獲得する単純かつ滑らかなエンドツーエンド学習プロシージャを活用しています。さらに、曲線的な文字など不規則な形状を持つテキストインスタンスの処理においても、従来の方法よりも優れています。ICDAR2013、ICDAR2015およびTotal-Textでの実験結果は、提案手法がシーンテキスト検出およびエンドツーエンドテキスト認識タスクにおいて最先端の成果を達成していることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています