HyperAIHyperAI

Command Palette

Search for a command to run...

空間時間ネットワークを用いた明示的オクルージョン訓練を伴う3D人体ポーズ推定

Yu Cheng Bo Yang Bo Wang Robby T. Tan

概要

単眼動画から3次元姿勢を推定することは、近年の著しい進展にもかかわらず、依然として挑戦的な課題である。一般的に、既存の手法は対象人物が小さすぎたり大きすぎたり、あるいは運動が訓練データのスケールや速度に対して極端に速すぎたり遅すぎたりする場合、性能が著しく低下する。さらに、本研究の知見によれば、これらの多くの手法は、重度の遮蔽(occlusion)を想定して設計・訓練されておらず、遮蔽の処理能力に課題を抱えている。このような問題に対処するために、本研究ではロバストな3次元人体姿勢推定を実現するための空間時間ネットワークを提案する。動画内の人物は異なるスケールで出現し、多様な運動速度を示すため、各フレームにおいて2次元関節やキーポイントの予測にマルチスケールの空間特徴を適用し、3次元関節やキーポイントの推定にはマルチストライドの時系列畳み込みネットワーク(TCN)を用いる。さらに、身体構造および肢の運動を基にした空間時間的識別器を設計し、予測された姿勢が物理的に妥当な姿勢であり、かつ自然な運動を形成しているかどうかを評価する。学習段階では、微小な遮蔽から重度の遮蔽までを模倣するため、一部のキーポイントを明示的にマスクする手法を採用することで、ネットワークがさまざまな遮蔽状況に耐えうるよう学習できる。また、3次元の真値データが限られていることから、2次元動画データを活用してネットワークに準教師あり学習の能力を付与する。公開データセットにおける実験により、本手法の有効性が検証され、アブレーションスタディによってネットワーク内の各サブモジュールの貢献度が明確に示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています