6ヶ月前

コンピュータビジョン

コンピュータビジョン

Zhi Qiao Yu Zhou Dongbao Yang Yucan Zhou Weiping Wang

概要

シーンテキスト認識は、コンピュータビジョン分野における注目される研究テーマである。近年、エンコーダデコーダフレームワークに基づく認識手法が多数提案されており、透視歪みや曲線形状を有するシーンテキストの処理が可能となっている。しかし、画像のぼやけ、不均一な照明、文字の欠損といった課題に直面している。本研究では、多数のエンコーダデコーダ手法が局所的な視覚特徴に依拠しており、明示的なグローバルな意味情報を持たない点に着目する。そこで、低品質なシーンテキストをより堅牢に認識できるように、意味情報を強化したエンコーダデコーダフレームワークを提案する。本フレームワークでは、意味情報がエンコーダモジュールにおいて教師信号として用いられ、デコーダモジュールにおいて初期化に活用される。特に、最先端のASTER手法を本提案フレームワーク内に実装する例として統合した。広範な実験により、提案フレームワークが低品質なテキスト画像に対してより高い堅牢性を示し、複数のベンチマークデータセットにおいて最先端の性能を達成することが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

コンピュータビジョン

Zhi Qiao Yu Zhou Dongbao Yang Yucan Zhou Weiping Wang

概要

シーンテキスト認識は、コンピュータビジョン分野における注目される研究テーマである。近年、エンコーダデコーダフレームワークに基づく認識手法が多数提案されており、透視歪みや曲線形状を有するシーンテキストの処理が可能となっている。しかし、画像のぼやけ、不均一な照明、文字の欠損といった課題に直面している。本研究では、多数のエンコーダデコーダ手法が局所的な視覚特徴に依拠しており、明示的なグローバルな意味情報を持たない点に着目する。そこで、低品質なシーンテキストをより堅牢に認識できるように、意味情報を強化したエンコーダデコーダフレームワークを提案する。本フレームワークでは、意味情報がエンコーダモジュールにおいて教師信号として用いられ、デコーダモジュールにおいて初期化に活用される。特に、最先端のASTER手法を本提案フレームワーク内に実装する例として統合した。広範な実験により、提案フレームワークが低品質なテキスト画像に対してより高い堅牢性を示し、複数のベンチマークデータセットにおいて最先端の性能を達成することが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています