6ヶ月前

オブジェクト検出

畳み込みニューラルネットワーク

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Mingyang Shang Dawei Xiang Zhicheng Wang Erjin Zhou

概要

歩行者の検出において、オクルージョン（遮蔽）は極めて困難な課題である。本論文では、遮蔽された歩行者の検出を「可視領域の検出」と「全身ボックスの推定」という明示的な段階に分解するシンプルかつ効果的な手法、V2F-Netを提案する。V2F-Netは、2つのサブネットワークから構成される：可視領域検出ネットワーク（Visible region Detection Network; VDN）と全身推定ネットワーク（Full body Estimation Network; FEN）。VDNは可視領域の位置を推定し、FENは得られた可視領域のボックスをもとに全身のボックスを推定する。さらに、全身推定の精度をさらに向上させるために、新たな「埋め込みベースの部位意識モジュール（Embedding-based Part-aware Module; EPM）」を提案する。このモジュールは各部位の可視性を監視することで、ネットワークが部位に特化した重要な特徴を抽出するよう促進する。2つの困難なデータセット上で実験を行い、V2F-Netの有効性を実証した。CrowdHumanデータセットではFPNベースラインと比較して5.85%のAP向上を達成し、CityPersonsデータセットではMR-2において2.24%の改善を示した。さらに、1段階検出器および2段階検出器の両方で一貫した性能向上が得られたことから、本手法の汎用性が確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

オブジェクト検出

畳み込みニューラルネットワーク

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Mingyang Shang Dawei Xiang Zhicheng Wang Erjin Zhou

概要

歩行者の検出において、オクルージョン（遮蔽）は極めて困難な課題である。本論文では、遮蔽された歩行者の検出を「可視領域の検出」と「全身ボックスの推定」という明示的な段階に分解するシンプルかつ効果的な手法、V2F-Netを提案する。V2F-Netは、2つのサブネットワークから構成される：可視領域検出ネットワーク（Visible region Detection Network; VDN）と全身推定ネットワーク（Full body Estimation Network; FEN）。VDNは可視領域の位置を推定し、FENは得られた可視領域のボックスをもとに全身のボックスを推定する。さらに、全身推定の精度をさらに向上させるために、新たな「埋め込みベースの部位意識モジュール（Embedding-based Part-aware Module; EPM）」を提案する。このモジュールは各部位の可視性を監視することで、ネットワークが部位に特化した重要な特徴を抽出するよう促進する。2つの困難なデータセット上で実験を行い、V2F-Netの有効性を実証した。CrowdHumanデータセットではFPNベースラインと比較して5.85%のAP向上を達成し、CityPersonsデータセットではMR-2において2.24%の改善を示した。さらに、1段階検出器および2段階検出器の両方で一貫した性能向上が得られたことから、本手法の汎用性が確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています