2ヶ月前

SL-DML: 複数モーダルのワンショット行動認識のための信号レベル深層計量学習

Memmesheimer, Raphael ; Theisen, Nick ; Paulus, Dietrich
SL-DML: 複数モーダルのワンショット行動認識のための信号レベル深層計量学習
要約

単一の参照サンプルを使用して活動を認識するメトリックラーニングアプローチは有望な研究分野である。少数ショット手法の多くは、物体認識や顔識別に焦点を当てている。本稿では、行動認識問題を埋め込み空間における最寄り近傍探索に還元するためのメトリックラーニングアプローチを提案する。信号を画像にエンコードし、深層残差CNNを使用して特徴量を抽出する。三重損失(triplet loss)を使用して、特徴量の埋め込みを学習する。これにより得られるエンコーダーは、類似した行動が近い距離で表現され、異なる行動が遠い距離で表現されるような埋め込み空間に特徴量を変換する。当方針は信号レベルでの定式化に基づいており、様々なモダリティに対して柔軟性を持つ。また、大規模なNTU RGB+D 120データセットにおいてワンショット行動認識プロトコルでベースラインを超える5.6%の性能向上を達成している。訓練データの60%のみを使用しても、当方針はベースライン方針を超える3.7%の性能向上を示す。訓練データの40%のみを使用した場合でも、当方針は二番目の追跡方針と同等以上の性能を発揮する。さらに、UTD-MHADデータセット(慣性データ、骨格データ、融合データ)とSimitateデータセット(モーションキャプチャリングデータ)における実験結果から、当方針が良好な汎化能力を持つことが示されている。また、関節間およびセンサ間の実験結果からも、未見の設定に対する優れた能力が示唆されている。