要約
視覚的・非視覚的・ウェアラブルなマルチモーダルセンサーは、人間の行動を正確に認識するための堅牢な認識システムの構築に、補完的な情報を提供できる。しかし、マルチモーダルセンサーからのデータには異種性が高く、人間の行動も多様であるため、特にノイズが強く、センサー間のデータが同期していない状況下では、堅牢なマルチモーダル表現の抽出は困難である。本研究では、人間行動認識(HAR)における堅牢なマルチモーダル表現の抽出を目的として、協調的マルチタスク学習に基づくガイド付きマルチモーダル融合手法「MuMu」を提案する。MuMuは、共通する特徴を持つ行動群(activity-group)ごとに特化した特徴を抽出する補助タスク学習アプローチを採用する。その後、これらの行動群固有の特徴を用いて、本研究で提案するガイド付きマルチモーダル融合手法(GM-Fusion)を駆使し、補完的なマルチモーダル表現を抽出するターゲットタスクを実現する。MuMuの性能は、3つの行動データセットにおいて最先端のマルチモーダルHAR手法と比較して評価された。広範な実験結果から、MuMuはすべてのデータセットにおいて、比較対象のすべての手法を上回る性能を示した。さらに、アブレーションスタディの結果から、本研究のガイド付きマルチモーダル融合を用いないベースラインモデルと比較して、MuMuは統計的に有意に優れた性能(p < 0.05)を発揮することが明らかになった。最後に、ノイズが強く、同期が取れていないセンサーデータにおいてもMuMuが堅牢な性能を発揮したことから、本手法は実世界におけるHARに適していることが示唆される。