15日前
Pose Transformers (POTR):非自己回帰型Transformerを用いた人間の運動予測
Angel Martínez-González, Michael Villamizar, Jean-Marc Odobez

要約
本研究では、Transformerアーキテクチャを用いた非自己回帰型の人体運動予測手法を提案する。従来の最先端のRNNベース手法が過去の予測結果に依存して逐次的に出力を生成するのに対し、本手法はクエリ系列から要素を並列にデコードする。このアプローチにより、計算負荷が低減されるとともに、長期間にわたる系列における誤差の蓄積を回避する可能性がある。本研究の貢献は以下の4点に集約される。(i) 人体運動予測をシーケンス・トゥ・シーケンス問題として定式化し、並列にポーズ系列を推論可能な非自己回帰型Transformerを提案する。(ii) 入力系列から抽出した要素を用いて事前に生成されたクエリ系列から3Dポーズ系列をデコードする手法を提案する。(iii) エンコーダの記憶状態からスケルトンベースの行動分類を実行し、行動の識別が予測精度の向上に寄与する可能性を検討する。(iv) 一見単純であるにもかかわらず、2つの公開データセットにおいて競争力ある結果を達成した。特に、長期間予測よりも短期間予測において顕著な性能を示した点は、予期せぬ結果である。