7ヶ月前

畳み込みニューラルネットワーク

コンピュータビジョン

セマンティックセグメンテーション

アプローチ／フレームワーク

コンピュータビジョン

Kin-Man Lam Jianbing Shen Wenguan Wang Sanyuan Zhao Hongmei Song

概要

本稿では、新たな再帰型ネットワークアーキテクチャ「ピラミッド拡張双方向ConvLSTM（PDB-ConvLSTM）」を基盤として、高速な動画サリエンシー物体検出モデルを提案する。まず、複数スケールにおける空間特徴を同時に抽出できる「ピラミッド拡張畳み込み（PDC）モジュール」を設計した。得られた空間特徴は連結され、拡張された「深層双方向ConvLSTM（DB-ConvLSTM）」に投入され、空間時間的特徴を学習する。前向きおよび後向きのConvLSTMユニットを2層に配置し、段階的に接続することで、双方向ストリーム間の情報伝達を促進し、より深層な特徴抽出を実現している。さらに、複数の拡張畳み込みDB-ConvLSTMを用いてPDCと同様の構造をDB-ConvLSTMに導入し、多スケールの空間時間的特徴を抽出する能力を強化した。広範な実験結果から、本手法は従来の動画サリエンシー検出モデルを大きく上回り、単一GPU上で20fpsのリアルタイム処理速度を達成した。無監督動画オブジェクトセグメンテーションを具体例として適用した場合、提案モデル（CRFベースの後処理を含む）は2つの代表的なベンチマークにおいて最先端の性能を達成し、その優れた性能と高い適用可能性を明確に示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

畳み込みニューラルネットワーク

コンピュータビジョン

セマンティックセグメンテーション

アプローチ／フレームワーク

コンピュータビジョン

Kin-Man Lam Jianbing Shen Wenguan Wang Sanyuan Zhao Hongmei Song

概要

本稿では、新たな再帰型ネットワークアーキテクチャ「ピラミッド拡張双方向ConvLSTM（PDB-ConvLSTM）」を基盤として、高速な動画サリエンシー物体検出モデルを提案する。まず、複数スケールにおける空間特徴を同時に抽出できる「ピラミッド拡張畳み込み（PDC）モジュール」を設計した。得られた空間特徴は連結され、拡張された「深層双方向ConvLSTM（DB-ConvLSTM）」に投入され、空間時間的特徴を学習する。前向きおよび後向きのConvLSTMユニットを2層に配置し、段階的に接続することで、双方向ストリーム間の情報伝達を促進し、より深層な特徴抽出を実現している。さらに、複数の拡張畳み込みDB-ConvLSTMを用いてPDCと同様の構造をDB-ConvLSTMに導入し、多スケールの空間時間的特徴を抽出する能力を強化した。広範な実験結果から、本手法は従来の動画サリエンシー検出モデルを大きく上回り、単一GPU上で20fpsのリアルタイム処理速度を達成した。無監督動画オブジェクトセグメンテーションを具体例として適用した場合、提案モデル（CRFベースの後処理を含む）は2つの代表的なベンチマークにおいて最先端の性能を達成し、その優れた性能と高い適用可能性を明確に示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています