
要約
現実世界のシナリオにおいて、人間の行動はしばしば長尾分布に従う。このため、バランスの取れたデータセットに基づいて設計された従来の骨格ベース行動認識手法は、性能の急激な低下を引き起こす問題に直面している。近年、画像・動画の長尾学習に関する多くの研究が進められているが、特にモダリティ固有の手法(例:データ拡張)において、空間時間的な運動パターンという重要な要素が無視されがちなため、これらの手法を骨格データに直接適用することは最適ではない。この課題に対処するため、空間的に集中する人間の行動において身体部位が果たす重要な役割に着目し、混合拡張(mixing augmentations)に焦点を当て、尾部カテゴリ(tail categories)に対する代表的な運動パターンを抽出することで長尾学習を向上させる新しい手法「Shap-Mix」を提案する。具体的には、骨格データの表現品質を向上させるための効果的な空間時間混合戦略を構築し、さらに、Shapley値に基づくサリエンシー推定と尾部に配慮した混合ポリシーから構成されるサリエンシー誘導法を導入する。これにより、少数クラスの顕著な運動部分が混合データに保持され、重要な身体構造の手がかりと高レベルの意味情報との明示的な関係が確立される。本手法は、3つの大規模な骨格データセット上で広範な実験により、長尾設定およびバランスの取れた設定の両方において顕著な性能向上を示した。本研究のプロジェクトページは以下のURLで公開されている:https://jhang2020.github.io/Projects/Shap-Mix/Shap-Mix.html。