4ヶ月前

オブジェクト検出

畳み込みニューラルネットワーク

セマンティックセグメンテーション

アプローチ／フレームワーク

コンピュータビジョン

Zhou Xinyu Yao Cong Wen He Wang Yuzhi Zhou Shuchang

概要

シーンテキスト検出に関する従来のアプローチは、さまざまなベンチマークにおいてすでに有望な性能を達成している。しかし、深いニューラルネットワークモデルを用いても、パイプライン内の複数の段階やコンポーネントの相互作用によって全体の性能が制約されるため、困難な状況下では依然として限界に達する傾向がある。本研究では、自然シーンにおける高速かつ高精度なテキスト検出を実現する、シンプルでありながら強力なパイプラインを提案する。本パイプラインは、単一のニューラルネットワークにより、全画像上で任意の方向と四角形形状の単語またはテキスト行を直接予測することで、不要な中間ステップ（例：候補の集約や単語の分割）を排除する。本パイプラインの単純さにより、損失関数やニューラルネットワークアーキテクチャの設計に集中することが可能となる。ICDAR 2015、COCO-Text、MSRA-TD500 を含む標準データセットにおける実験結果から、提案手法が精度と効率の両面で最先端の手法を顕著に上回ることが示された。特に ICDAR 2015 データセットにおいて、720p解像度で13.2fpsの速度下でFスコア0.7820を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

オブジェクト検出

畳み込みニューラルネットワーク

セマンティックセグメンテーション

アプローチ／フレームワーク

コンピュータビジョン

Zhou Xinyu Yao Cong Wen He Wang Yuzhi Zhou Shuchang

概要

シーンテキスト検出に関する従来のアプローチは、さまざまなベンチマークにおいてすでに有望な性能を達成している。しかし、深いニューラルネットワークモデルを用いても、パイプライン内の複数の段階やコンポーネントの相互作用によって全体の性能が制約されるため、困難な状況下では依然として限界に達する傾向がある。本研究では、自然シーンにおける高速かつ高精度なテキスト検出を実現する、シンプルでありながら強力なパイプラインを提案する。本パイプラインは、単一のニューラルネットワークにより、全画像上で任意の方向と四角形形状の単語またはテキスト行を直接予測することで、不要な中間ステップ（例：候補の集約や単語の分割）を排除する。本パイプラインの単純さにより、損失関数やニューラルネットワークアーキテクチャの設計に集中することが可能となる。ICDAR 2015、COCO-Text、MSRA-TD500 を含む標準データセットにおける実験結果から、提案手法が精度と効率の両面で最先端の手法を顕著に上回ることが示された。特に ICDAR 2015 データセットにおいて、720p解像度で13.2fpsの速度下でFスコア0.7820を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

EAST：効率的かつ高精度なシーンテキスト検出器 | 記事 | HyperAI超神経