11日前

LiftFormer:アテンションモデルを用いた3D人体ポーズ推定

Adrian Llopart
LiftFormer:アテンションモデルを用いた3D人体ポーズ推定
要約

近年、人体関節の3次元位置を推定する技術は広く研究されている分野となっている。特に注目が集まっているのは、2次元データ(キーポイント)から3次元情報を推定する新しい手法の開発であり、特に人体骨格に紐づく関節の根元相対座標を予測するアプローチが中心となっている。最新の研究動向は、Transformer Encoderブロックが従来の手法に比べて時間的情報をより効果的に集約できることを示している。そこで本研究では、動画内の順序付けられた人体ポーズ系列に対してアテンション機構を用いて時間情報を活用することで、より高精度な3次元推定を実現するため、これらのモデルの活用を提案する。本手法は、2Dキーポイント予測器を用いた場合、Human3.6Mデータセットにおいて従来の最良手法よりも0.3mm優れており(MPJPE: 44.8、0.7%の改善)、真値入力の場合には2mmの改善(MPJPE: 31.9、8.4%の改善)を達成した。また、HumanEva-Iデータセットにおいても最先端の性能を示し、P-MPJPEが10.5(22.2%の低減)を記録した。モデルのパラメータ数は容易に調整可能であり、現在の主流手法(16.95Mおよび11.25M)よりも少ない(9.5M)ながらも、優れた性能を発揮している。したがって、本研究で提案する3次元リフティングモデルは、エンドツーエンド型やSMPLに基づくアプローチを上回る精度を実現しており、多くのマルチビュー手法と同等の性能を達成している。

LiftFormer:アテンションモデルを用いた3D人体ポーズ推定 | 最新論文 | HyperAI超神経