要約
人間の行動認識は、ロボットが人間の周囲で有用に機能するためには不可欠な能力の一つである。現代のロボットは多様なセンサを搭載しているものの、特にノイズの多いセンサデータが存在する状況下では、人間行動認識(HAR)は依然として困難な課題のままである。本研究では、階層的に補完的なマルチモーダル特徴を学習するマルチモーダルグラフィカルアテンションベースのHAR手法、すなわちMulti-GATを提案する。本手法では、特徴の相互作用を可能にするために、モダリティ固有の顕著な特徴を分離・抽出できるマルチモーダル・ミクスチャー・オブ・エキスパートモデルを構築した。さらに、異なるモダリティ間の関係を捉えるために、新たなメッセージ伝達に基づくグラフィカルアテンション手法を導入し、補完的なマルチモーダル特徴の抽出を実現した。2つのマルチモーダル人間行動データセットを用いた実験結果から、Multi-GATはすべてのデータセットおよび評価指標において、最先端のHARアルゴリズムを上回ることが示された。さらに、ノイズを含むセンサデータを用いた実験では、Multi-GATが評価したすべてのベースライン手法を一貫して上回る堅牢な性能を発揮した。これらの結果から、Multi-GATはノイズが存在する人間環境においても、スムーズな人間-ロボット協働を可能にする可能性を示している。