拡張スケルトンに基づくコントラスティブアクション学習とモーメンタムLSTMを用いた教師なしアクション認識

3D骨格データを用いた動作認識は、近年重要な研究トピックとなっています。既存の手法の多くは、手動で設計された記述子を抽出するか、大量のラベル付きデータを必要とする教師あり学習パラダイムによって動作表現を学習します。本論文では、初めて無教師学習により未ラベルの骨格データの異なる拡張を活用して動作表現を学習する対照的な動作学習パラダイムであるAS-CAL(Action Similarity Contrastive Action Learning)を提案します。具体的には、まず入力される骨格シーケンスの拡張インスタンス(クエリとキー)間の類似性を対照することで、異なる骨格変換における固有の動作パターン(「パターン不変性」)を学習します。これらのインスタンスは複数の新しい拡張戦略によって変換されます。次に、より一貫した動作表現でのパターン不変性の学習を促進するために、モーメントLSTM(Long Short-Term Memory)を提案します。これはLSTMベースのクエリエンコーダーに基づく移動平均として実装され、キーシーケンスの長期的な動作動態をエンコードします。さらに、エンコードされたキーを保存するキューを導入し、モデルが前のキーを柔軟に再利用し、より一貫した辞書を作成して対照的学習を改善できるようにしています。最後に、クエリエンコーダーによって学習された動作の隠れ状態を時間的に平均化することにより、人間の動作表現効果的に代表する新しい表現であるCAE(Contrastive Action Encoding)が提案されています。広範な実験結果から、当方針は既存的手動設計手法よりも10-50%高いトップ1精度で性能向上が見られること、また多くの教師あり学習手法と同等またはそれ以上の性能が得られることを示しています。