6ヶ月前

コンピュータビジョン

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Alessio Elmi Davide Mazzini Pietro Tortella

概要

複数人の3次元姿勢推定を、少数のキャリブレーション済みカメラビューから行う手法を提案する。本手法のアーキテクチャは、最近提案されたアンプロジェクション層（unprojection layer）を活用し、2次元姿勢推定のバックボーンから得られる特徴マップを統合して、3次元シーンの包括的な表現を構築する。この中間表現は、完全畳み込み型ボリュームネットワークおよびデコードステージによってさらに精緻化され、ボクセル単位以下の精度で3次元スケルトンを抽出する。本手法は、CMU Panopticデータセットにおいて少数の未観測ビューを用いて最先端のMPJPE（Mean Per Joint Position Error）を達成し、さらには単一の入力ビューでも競争力ある結果を獲得している。また、公開されているShelfデータセットを用いてモデルの転移学習能力を評価したところ、良好な性能指標が得られた。提案手法は本質的に効率的である：純粋なボトムアップアプローチであるため、シーン内の人物数に依存せずに計算負荷が一定である。さらに、2次元部分の計算負荷は入力ビュー数に線形に増加するものの、全体のアーキテクチャはボリュームネットワークと比べて数オーダー高速な非常に軽量な2次元バックボーンを採用でき、結果として高速な推論が可能となる。本システムは1枚の1080Ti GPU上で最大10台のカメラビューを処理しながら6 FPSで動作可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Alessio Elmi Davide Mazzini Pietro Tortella

概要

複数人の3次元姿勢推定を、少数のキャリブレーション済みカメラビューから行う手法を提案する。本手法のアーキテクチャは、最近提案されたアンプロジェクション層（unprojection layer）を活用し、2次元姿勢推定のバックボーンから得られる特徴マップを統合して、3次元シーンの包括的な表現を構築する。この中間表現は、完全畳み込み型ボリュームネットワークおよびデコードステージによってさらに精緻化され、ボクセル単位以下の精度で3次元スケルトンを抽出する。本手法は、CMU Panopticデータセットにおいて少数の未観測ビューを用いて最先端のMPJPE（Mean Per Joint Position Error）を達成し、さらには単一の入力ビューでも競争力ある結果を獲得している。また、公開されているShelfデータセットを用いてモデルの転移学習能力を評価したところ、良好な性能指標が得られた。提案手法は本質的に効率的である：純粋なボトムアップアプローチであるため、シーン内の人物数に依存せずに計算負荷が一定である。さらに、2次元部分の計算負荷は入力ビュー数に線形に増加するものの、全体のアーキテクチャはボリュームネットワークと比べて数オーダー高速な非常に軽量な2次元バックボーンを採用でき、結果として高速な推論が可能となる。本システムは1枚の1080Ti GPU上で最大10台のカメラビューを処理しながら6 FPSで動作可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Light3DPose：複数視点からのリアルタイム多人数3Dポーズ推定 | 記事 | HyperAI超神経