3ヶ月前

マルチグラフ畳み込みネットワークを用いたポーズ予測

Hongwei Ren, Yuhong Shi, Kewei Liang
マルチグラフ畳み込みネットワークを用いたポーズ予測
要約

近年、観測された姿勢シーケンスに基づいて将来の身体姿勢を予測する「人間の運動予測」に対する関心が高まっている。このタスクは、空間的・時間的関係を正確にモデル化する必要があるため、極めて複雑である。現在、この分野で最も広く用いられているモデルは、再帰型ニューラルネットワーク(RNN)やその変種、およびTransformerネットワークといった自己回帰モデルである。しかし、RNNには勾配消失や勾配爆発といった課題が存在する。また、空間次元における情報伝達の課題を解決するために、グラフ畳み込みネットワーク(GCN)と長短期記憶(LSTM)モデルを統合するアプローチも提案されている。しかしこれらの手法は、時間的・空間的情報を別々に処理するため、性能の向上に限界がある。この問題を解決するため、本研究では3次元人間姿勢予測を目的とした新しいアプローチである「マルチグラフ畳み込みネットワーク(MGCN)」を提案する。本モデルは、姿勢シーケンスに対して拡張されたグラフを導入することで、空間的および時間的情報を同時に捉える。複数フレームから得られる複数の身体部位を一つのグラフインスタンスに統合することで、シーケンス全体の構造的関係を効果的に表現する。さらに、自然な身体構造の考慮と、シーケンスに依存するアテンション機構がモデル性能に与える影響についても検討した。大規模ベンチマークデータセット(Human3.6M、AMSS、3DPW)を用いた実験評価の結果、MGCNは従来の最先端手法を上回る姿勢予測性能を達成した。