要約
骨格に基づく行動認識は、スマート動画監視や人間行動分析において広く応用されている。従来の研究では、畳み込みニューラルネットワーク(CNN)を用いて骨格シーケンスの空間時系列的特徴を学習することが成功している。しかし、これらの手法は個々の関節の座標にのみ注目しており、関節間の空間的関係性を無視し、運動表現も間接的にしか学習していないという課題がある。本研究では、幾何代数(Geometric Algebra)を活用することで、骨格シーケンスから包括的な表現を効果的に学習する手法を提案する。まず、視点変化に対して頑健な特性を有する、前向き姿勢に基づく空間時系列モデルを構築し、骨格シーケンスの空間的構成と時間的ダイナミクスを表現する。次に、互いに補完し合う形状表現と運動表現を学習することで、骨格行動を包括的に記述する。最後に、補完的な形状・運動表現から深層特徴を抽出・統合するため、マルチストリームCNNモデルを適用する。NTU RGB+DおよびNorthwestern-UCLAデータセットにおける実験結果から、本手法の優位性が一貫して確認された。