2ヶ月前

時間情報を活用した3次元姿勢推定

Mir Rayat Imtiaz Hossain; James J. Little
時間情報を活用した3次元姿勢推定
要約

本研究では、2D人間姿勢のシーケンスから3D人間姿勢を推定する問題に取り組んでいます。深層ネットワークの最近の成功により、多くの最先端の3D姿勢推定手法が画像から直接予測を行うように深層ネットワークをエンドツーエンドで学習させるようになりましたが、最優秀なアプローチは3D姿勢推定タスクを2つのステップに分けることの有効性を示しています。すなわち、最先端の2D姿勢推定器を使用して画像から2D姿勢を推定し、その後それを3次元空間にマッピングするという方法です。また、関節位置の集合のような低次元表現が十分に識別可能であり、高精度で3D姿勢を推定できることが示されています。しかし、個々のフレームでの3D姿勢の推定は各フレームにおける独立した誤差により時間的に一貫性がない(時間的な非連続性)ため、ジター(揺れ)が発生します。そこで本研究では、2D関節位置のシーケンス全体にわたる時間情報を活用して3D姿勢のシーケンスを推定することを目指しました。我々は入力と出力をデコーダ側で接続するショートカット接続を持つレイヤー正規化LSTMユニットで構成されるシーケンス対シーケンスネットワークを設計し、学習中に時間的な滑らかさ制約を課しました。その結果、時間的一貫性に関する知識がHuman3.6Mデータセット上で報告されている最高結果を約12.2%向上させることに成功しました。さらに、2D姿勢検出器が失敗した場合でも、画像シーケンス全体にわたって時間的に一貫した3D姿勢を回復するのに役立つことが確認されました。注:「$12.2\%$」は数式形式ですが、「約12.2%」と表記することで日本語での読みやすさを確保しています。