6ヶ月前

コンピュータビジョン

マルチモーダル

畳み込みニューラルネットワーク

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

and John Collomosse Matthew Trumble Charles Malleson Adrian Hilton Andrew Gilbert

概要

本研究では、複数視点映像（MVV）と慣性測定装置（IMU）センサデータを融合するアルゴリズムを提示し、3次元人体ポーズを高精度で推定することを目的としている。本手法では、MVVフレームから導出された体積型確率的視認可能ボリューム（PVH）データを用いて、3次元畳み込みニューラルネットワーク（3D CNN）によりポーズ埋め込みを学習する。このモデルを、MVVから得られるポーズ埋め込みとIMUデータの前向き運動学的解法（forward kinematic solve）を統合する二重ストリームネットワークの枠組みに組み込む。両ストリームの融合前に、それぞれに時系列モデル（LSTM）を導入することで、時間的相関性を捉える。この二つの補完的データソースを統合して行うハイブリッドポーズ推定により、各センサモダリティに内在する曖昧性が解消され、従来手法に比べて精度が向上することが示された。本研究のさらなる貢献として、商用モーションキャプチャシステムから導出した骨格関節の真値を含む新しいハイブリッドMVVデータセット「TotalCapture」を構築した。このデータセットは、http://cvssp.org/data/totalcapture/ にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

マルチモーダル

畳み込みニューラルネットワーク

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

and John Collomosse Matthew Trumble Charles Malleson Adrian Hilton Andrew Gilbert

概要

本研究では、複数視点映像（MVV）と慣性測定装置（IMU）センサデータを融合するアルゴリズムを提示し、3次元人体ポーズを高精度で推定することを目的としている。本手法では、MVVフレームから導出された体積型確率的視認可能ボリューム（PVH）データを用いて、3次元畳み込みニューラルネットワーク（3D CNN）によりポーズ埋め込みを学習する。このモデルを、MVVから得られるポーズ埋め込みとIMUデータの前向き運動学的解法（forward kinematic solve）を統合する二重ストリームネットワークの枠組みに組み込む。両ストリームの融合前に、それぞれに時系列モデル（LSTM）を導入することで、時間的相関性を捉える。この二つの補完的データソースを統合して行うハイブリッドポーズ推定により、各センサモダリティに内在する曖昧性が解消され、従来手法に比べて精度が向上することが示された。本研究のさらなる貢献として、商用モーションキャプチャシステムから導出した骨格関節の真値を含む新しいハイブリッドMVVデータセット「TotalCapture」を構築した。このデータセットは、http://cvssp.org/data/totalcapture/ にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています