8ヶ月前

概要

深度カメラや慣性センサーが人間の動作認識に頻繁に利用されてきましたが、コストや環境制約によりこれらのセンシングモダリティは多くの状況で実用的ではありません。そのため、最近では低コストで手軽に入手できるRGBカメラを用いて深層畳み込みニューラルネットワーク（CNN）による人間の動作認識を行うことに注目が集まっています。しかし、これまで提案された多くの深層CNNは、画像データから直接全体的な外観特徴を学習することに大きく依存しており、これにより計算量が多く、訓練も困難な非常に複雑なネットワークアーキテクチャとなっています。このような背景から、ネットワークの複雑さを削減し、より高い性能を達成するため、空間時間活性再投影（Spatio-Temporal Activation Reprojection: STAR）という概念を導入しました。具体的には、人間姿勢推定層によって生成される空間時間活性を3次元畳み込みのスタックを使用して空間と時間において再投影します。UTD-MHADおよびJ-HMDBでの実験結果は、提案したSTARフレームワークに基づくエンドツーエンドのアーキテクチャ（STAR-Netと呼んでいます）が単一環境や小規模アプリケーションにおいて優れた性能を持つことを示しています。UTD-MHADにおいては、STAR-Netは深度センサーや慣性センサーなどの豊富なデータモダリティを使用するいくつかの方法よりも優れた性能を発揮しています。

ソースPDF コードを表示