
要約
人間と円滑に協働するためには、ロボットが人間の行動を正確に認識する能力が必要である。現代のロボットは多様なセンサを搭載しているものの、マルチモーダルデータの融合に関する課題から、堅牢な人間行動認識(HAR: Human Activity Recognition)は依然として困難な課題である。本研究では、こうした課題に対処するため、深層ニューラルネットワークをベースとするマルチモーダルHARアルゴリズム「HAMLET」を提案する。HAMLETは階層的アーキテクチャを採用しており、下層ではマルチヘッド自己注意機構(multi-head self-attention mechanism)を用いて単モーダルデータから空間時系列特徴を符号化する。さらに、上層においては、単モーダル特徴の顕著な部分を分離・融合するための新規なマルチモーダル注意機構を設計し、マルチモーダル特徴を生成する。最終的に、得られたマルチモーダル特徴は全結合ニューラルネットワークに供給され、人間の行動を認識する。本アルゴリズムは、3つの人間行動データセットにおいて、複数の最先端の行動認識アルゴリズムと比較して評価された。その結果、すべてのデータセットおよび評価指標において、HAMLETが他のすべての比較ベースラインを上回ることが示された。特に、UTD-MHAD [1] データセットではトップ1精度95.12%、UT-Kinect [2] データセットでは97.45%、UCSD-MIT [3] データセットではF1スコア81.52%を達成した。さらに、単モーダルおよびマルチモーダルの注意マップを可視化することで、注意機構がHARに与える影響を解釈するための有効なツールを提供した。