
要約
我々はモーションカプセルオートエンコーダ(MCAE)を提案します。この手法は、運動表現の非教師あり学習における重要な課題である変換不変性に対処しています。MCAEは運動を2段階の階層構造でモデル化します。下位レベルでは、時空間的な運動信号が短い、局所的な、意味論的に無知なスニペットに分割されます。上位レベルでは、これらのスニペットが集約され、全文長の意味論的に認識可能なセグメントを形成します。両レベルにおいて、運動は学習された変換不変テンプレートの集合とそれに対応する幾何学的変換を使用してカプセルオートエンコーダによって表現されます。これは新しい設計であり、視点変化の堅牢かつ効率的な符号化を実現します。MCAEは新規のTrajectory20運動データセットおよび様々な実世界の人間行動データセット(骨格ベース)で評価されました。特に、Trajectory20においては基線モデルよりも少ないパラメータでより優れた結果を達成しており、非教師あり骨格ベースの人間行動認識タスクにおいて最先端の性能を示しています。