16日前
骨格ベースの人体運動予測のためのグラフ誘導型MLP-Mixer
Xinshun Wang, Qiongjie Cui, Chen Chen, Shen Zhao, Mengyuan Liu

要約
近年、グラフ畳み込みネットワーク(GCN)は人間の運動予測において広く用いられているが、その性能は依然として満足のいくものではない。最近では、視覚タスク向けに開発されたMLP-Mixerが、GCNの有力な代替手段として人間の運動予測に導入されており、性能と効率の両面でGCNを上回る成果を示している。しかし、GCNは骨格をノードとエッジで構成されるグラフとして表現することで、骨と関節の構造を明示的に捉えることができるのに対し、MLP-Mixerは完全結合層に依存しており、人間骨格のグラフ構造を明示的にモデル化することができないという制約がある。このMLP-Mixerの限界を克服するため、本研究では、元のMLP-Mixerアーキテクチャにグラフ構造をモデル化する能力を付与する新しい手法「Graph-Guided Mixer」を提案する。グラフガイドを導入することで、本手法は人間骨格のグラフ表現における特有の接続パターンを効果的に捉え、活用することが可能となる。本論文では、まず既存の研究で検討されていないMLP-MixerとGCNの間の理論的関係を明らかにする。この理論的関係を基盤として、次に提案する「Graph-Guided Mixer」の構成と、元のMLP-Mixerアーキテクチャがどのようにグラフ構造のガイドを統合するかを説明する。さらに、Human3.6M、AMASS、3DPWの3つのデータセットを用いた広範な評価を行った結果、本手法が最先端の性能を達成することが示された。