6ヶ月前

オブジェクト検出

セマンティックセグメンテーション

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Minghui Liao Zhaoyi Wan Cong Yao Kai Chen Xiang Bai

概要

近年、シーンテキスト検出において、形状が多様なテキスト（例：曲線テキストなど）をより正確に表現できる点から、セグメンテーションに基づく手法が注目を集めている。しかし、セグメンテーションベースの検出では、二値化処理が必須であり、これはセグメンテーション手法によって生成された確率マップをテキストのバウンディングボックスまたは領域に変換するプロセスである。本論文では、セグメンテーションネットワーク内で二値化処理を実行可能なモジュール「Differentiable Binarization（DB）」を提案する。DBモジュールと同時に最適化されることで、セグメンテーションネットワークは二値化の閾値を適応的に設定可能となり、後処理を簡素化するとともに、テキスト検出性能の向上も実現する。単純なセグメンテーションネットワークをベースに、5つのベンチマークデータセット上でDBの性能向上を検証した結果、検出精度と速度の両面で一貫して最先端の性能を達成した。特に、軽量なバックボーンを用いる場合、DBによる性能向上は顕著であり、検出精度と効率の理想のトレードオフを見出すことが可能となる。具体的には、ResNet-18をバックボーンとして使用した場合、MSRA-TD500データセットにおいてF-measure 82.8を達成しつつ、62 FPSの処理速度を実現した。コードは以下のURLから公開されている：https://github.com/MhLiao/DB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

オブジェクト検出

セマンティックセグメンテーション

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Minghui Liao Zhaoyi Wan Cong Yao Kai Chen Xiang Bai

概要

近年、シーンテキスト検出において、形状が多様なテキスト（例：曲線テキストなど）をより正確に表現できる点から、セグメンテーションに基づく手法が注目を集めている。しかし、セグメンテーションベースの検出では、二値化処理が必須であり、これはセグメンテーション手法によって生成された確率マップをテキストのバウンディングボックスまたは領域に変換するプロセスである。本論文では、セグメンテーションネットワーク内で二値化処理を実行可能なモジュール「Differentiable Binarization（DB）」を提案する。DBモジュールと同時に最適化されることで、セグメンテーションネットワークは二値化の閾値を適応的に設定可能となり、後処理を簡素化するとともに、テキスト検出性能の向上も実現する。単純なセグメンテーションネットワークをベースに、5つのベンチマークデータセット上でDBの性能向上を検証した結果、検出精度と速度の両面で一貫して最先端の性能を達成した。特に、軽量なバックボーンを用いる場合、DBによる性能向上は顕著であり、検出精度と効率の理想のトレードオフを見出すことが可能となる。具体的には、ResNet-18をバックボーンとして使用した場合、MSRA-TD500データセットにおいてF-measure 82.8を達成しつつ、62 FPSの処理速度を実現した。コードは以下のURLから公開されている：https://github.com/MhLiao/DB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています