12日前

スケール別空間時系列畳み込みニューラルネットワークを用いた骨格ベースの行動認識

{Jianming Liu, Qieshi Zhang, Ziliang Ren, Jun Cheng, Qin Cheng}
要約

スケルトンデータは、雑多な背景や照明変化に対して堅牢であるため、行動認識において重要な情報を提供する。近年、スケルトンデータから空間時間特徴を抽出する能力に限界があるため、畳み込みニューラルネットワーク(CNN)や再帰型ニューラルネットワーク(RNN)に基づく手法は、認識精度において劣っている。これに対し、グラフ畳み込みネットワーク(GCN)に基づく一連の手法が顕著な性能を達成し、徐々に主流となりつつある。しかし、GCNベースの手法は計算コストが非常に高く、いくつかの研究では100 GFLOPsを超えるものも存在する。これは、スケルトンデータが極めて凝縮された特徴を持つという性質と相反する。本論文では、異なるスケールの空間時間表現間の暗黙的な補完的利点を活かすために、新たなマルチスケール空間時間畳み込み(MSST)モジュールを提案する。従来のCNNベースの手法がスケルトンデータを擬似画像に変換するのではなく、あるいは複雑なグラフ畳み込みを用いるのではなく、時間的・空間的次元におけるマルチスケール畳み込みを活用して、関節間の包括的な依存関係を捉える。このMSSTモジュールを統合し、行動認識に向けた高レベルな空間時間的意味特徴を抽出するためのマルチスケール空間時間畳み込みニューラルネットワーク(MSSTNet)を提案する。従来の手法が計算コストを増大させることで性能を向上させるのに対し、MSSTNetはモデルサイズが小さく、高速な推論が可能であるという利点を持つ。さらに、MSSTNetは4ストリームフレームワークに組み込まれ、異なるモダリティのデータを融合することで、認識精度に顕著な向上をもたらす。NTU RGB+D 60、NTU RGB+D 120、UAV-Human、Northwestern-UCLAの各データセットにおいて、MSSTNetは最先端手法と比較して競争力ある性能を発揮しつつ、はるかに低い計算コストで実現している。

スケール別空間時系列畳み込みニューラルネットワークを用いた骨格ベースの行動認識 | 最新論文 | HyperAI超神経