16日前

骨格ベースの行動認識のためのジョイントミキシングデータ拡張

{Zengfu Wang, Linhua Xiang}
要約

スケルトンベースの行動認識は、動画における人間の行動理解に有用であり、近年、行動認識分野における重要な研究テーマとして注目を集めています。現在の研究は、スケルトンデータからより効果的に空間時系列情報を抽出するための高度なアルゴリズムの設計に焦点を当てています。しかし、既存のスケルトンデータセットのデータ量が少ないこと、および有効なデータ拡張手法が不足していることから、モデル学習において過学習が生じやすくなっています。この課題に対処するため、本研究では、さまざまなスケルトンベースの行動認識アルゴリズムの有効性とロバスト性を一般に向上させる「Joint Mixing Data Augmentation(JMDA)」という新たな混合ベースのデータ拡張手法を提案します。空間情報の観点では、空間情報の混合拡張を実現するため、空間的混合手法「SpatialMix(SM)」を導入します。SMは、元の3次元スケルトン離散情報を2次元空間に投影し、学習過程において2つのランダムなサンプル間でその投影された空間情報を混合することで、空間ベースの混合データ拡張を実現します。時間情報の観点では、「TemporalMix(TM)」を提案します。スケルトンデータに内在する時間的連続性を活用し、元のスケルトンデータに対して時間軸方向のリサイズ処理を行い、学習中に2つのランダムなサンプルを融合することで、時間ベースの混合データ拡張を実現します。さらに、混合ベースのデータ拡張をスケルトンデータに導入することによって生じる「特徴不一致(Feature Mismatch, FM)」問題について分析し、この問題を効果的に解決する新たなデータ前処理手法「Feature Alignment(FA)」を提案します。これにより、モデル性能の向上が可能になります。また、モデル性能のさらなる向上を目指し、複数の混合ベースデータ拡張手法を統合する新しい学習パイプライン「Joint Training Strategy(JTS)」を提案します。具体的には、本研究で提案するJMDAは、プラグアンドプレイ型であり、スケルトンベースの行動認識モデルに広く適用可能であり、モデルパラメータの増加もほとんどなく、追加の学習コストもほとんど発生しません。本手法の有効性とロバスト性を検証するため、NTU RGB+D 60およびNTU RGB+D 120データセットを用いた広範な実験を行った結果、複数の主流のスケルトンベース行動認識アルゴリズムにおいて、JMDAが顕著な性能向上をもたらすことを示しました。

骨格ベースの行動認識のためのジョイントミキシングデータ拡張 | 最新論文 | HyperAI超神経