11日前

空間時間分離型グラフ畳み込みネットワークを用いたポーズ予測

Theodoros Sofianos, Alessio Sampieri, Luca Franco, Fabio Galasso
空間時間分離型グラフ畳み込みネットワークを用いたポーズ予測
要約

人間のポーズ予測は、複雑な構造化時系列データを扱うタスクとして注目を集めている。その背景には、多様な応用可能性があるためである。従来の研究では、時間軸を時系列として扱い、人体関節間の相互作用を運動学的木構造やグラフによってモデル化するアプローチが主流であった。これにより、時間的側面と空間的側面が分離され、それぞれの分野の進展を活用できた反面、人間のポーズが持つ複雑な関節空間時系列動態の理解は制限されていた。本研究では、新たな「空間時間分離型グラフ畳み込みネットワーク(Space-Time-Separable Graph Convolutional Network, STS-GCN)」を提案する。本手法は、初めてグラフ畳み込みネットワーク(GCN)のみを用いて、人間のポーズ動態を統合的にモデル化した。これにより、時間的進化と空間的関節相互作用を一つのグラフフレームワーク内で統合的に表現可能となり、運動の動的相関と空間的相関の相互作用(cross-talk)を実現した。さらに、STS-GCNは世界初の空間時間分離型GCNである。空間時間グラフの接続性を、空間的類似度行列と時間的類似度行列に分解することで、空間と時間の相互作用を制限しつつ、関節間間および時間間の完全な相関を維持する構造を実現した。これらの類似度行列はエンド・ツー・エンドで学習され、従来の運動学的木構造や線形時系列モデルとは大きく異なる接続構造が得られた。これは、人間の動きが持つ非線形かつ非構造的な動的特性をより正確に捉える可能性を示している。3つの最新で大規模なベンチマークデータセット(Human3.6M [Ionescu et al. TPAMI'14]、AMASS [Mahmood et al. ICCV'19]、3DPW [Von Marcard et al. ECCV'18])における実験評価では、STS-GCNは最先端技術を大きく上回り、特に困難な長期予測において、現在の最良手法 [Mao et al. ECCV'20] を平均で32%以上上回った。また、パラメータ数はその1.7%にまで削減された。本研究では、学習された関節間および時間間グラフ接続の分解構造を可視化することで、結果の質的説明とグラフ相互作用のメカニズムを示している。本研究のソースコードは以下のURLで公開されている:https://github.com/FraLuca/STSGCN

空間時間分離型グラフ畳み込みネットワークを用いたポーズ予測 | 最新論文 | HyperAI超神経