
要約
本論文では、骨格ベースの行動認識における非監督表現学習に焦点を当てています。既存の手法は通常、シーケンシャル予測によって行動表現を学習しますが、意味情報の完全な学習が困難という問題があります。この制約に対処するため、私たちはプロトタイプ対照と逆予測(Prototypical Contrast and Reverse Prediction: PCRP)という新しいフレームワークを提案します。PCRPは、低レベル情報(例:各フレームでの体勢)と高レベルパターン(例:動作順序)を学習するために逆シーケンシャル予測を作成し、さらに行動プロトタイプを考案してシークエンス間で共有される意味的な類似性を暗黙的に符号化します。一般的には、行動プロトタイプを潜在変数として捉え、PCRPを期待最大化タスクとして定式化しています。具体的には、PCRPは以下の2つのステップを反復実行します。(1) Eステップとしてエンコーダから行動エンコーディングのクラスタリングを行い、プロトタイプの分布を決定します。(2) Mステップとして提案されたProtoMAE損失関数を最小化することでエンコーダの最適化を行い、これにより行動エンコーディングが割り当てられたプロトタイプに近づきつつ逆予測タスクも実行されます。N-UCLA, NTU 60, NTU 120データセットにおいて広範な実験を行った結果、PCRPは最先端の非監督手法を上回り、さらにはいくつかの監督手法よりも優れた性能を達成することが示されました。コードはhttps://github.com/Mikexu007/PCRP で公開されています。