6ヶ月前

コンピュータビジョン

ビデオ理解

コンピュータビジョン

Yeji Shen C.-C. Jay Kuo

概要

単一画像からの多人数3次元ポーズ推定という困難な課題に取り組むために、本研究ではマルチビュー・マッチング（MVM）手法を提案する。MVM手法は、マネキンを模した動作停止状態の人物を含む大規模な動画データセット「Mannequinデータセット」から、信頼性の高い3次元人体ポーズを生成する。MVMによって自動的に生成された3次元ラベルを備えた大量のリアルワールド動画データを活用することで、単一画像を入力として受け取り、多人数3次元ポーズ推定を行うニューラルネットワークの学習が可能となる。MVMの核となる技術は、幾何学的制約が強い静止シーンの複数視点から得られた2次元ポーズを効果的に整合化することにある。本手法の目的は、複数フレームで推定された2次元ポーズの相互一貫性を最大化することであり、幾何学的制約と外観の類似性の両方を同時に考慮する。MVM手法が提供する3次元ラベルの有効性を検証するために、3DPWおよびMSCOCOデータセット上で実験を実施した結果、提案手法が最先端の性能を達成することを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

ビデオ理解

コンピュータビジョン

Yeji Shen C.-C. Jay Kuo

概要

単一画像からの多人数3次元ポーズ推定という困難な課題に取り組むために、本研究ではマルチビュー・マッチング（MVM）手法を提案する。MVM手法は、マネキンを模した動作停止状態の人物を含む大規模な動画データセット「Mannequinデータセット」から、信頼性の高い3次元人体ポーズを生成する。MVMによって自動的に生成された3次元ラベルを備えた大量のリアルワールド動画データを活用することで、単一画像を入力として受け取り、多人数3次元ポーズ推定を行うニューラルネットワークの学習が可能となる。MVMの核となる技術は、幾何学的制約が強い静止シーンの複数視点から得られた2次元ポーズを効果的に整合化することにある。本手法の目的は、複数フレームで推定された2次元ポーズの相互一貫性を最大化することであり、幾何学的制約と外観の類似性の両方を同時に考慮する。MVM手法が提供する3次元ラベルの有効性を検証するために、3DPWおよびMSCOCOデータセット上で実験を実施した結果、提案手法が最先端の性能を達成することを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

マルチビュー・マッチング（MVM）：アクション固定型人物映像を用いたマルチペルソナ3Dポーズ推定学習の促進 | 記事 | HyperAI超神経