
要約
人間活動分類に関する研究では、慣性測定装置(IMU)データまたは第三者視点の静止カメラデータを用いることが多く行われてきました。しかし、IMUデータのみを使用すると、検出できる活動の多様性と複雑さが制限されます。例えば、座っている活動はIMUデータから検出できますが、対象者が椅子に座っているのかソファに座っているのか、あるいはどこに座っているのかは判別できません。本研究では、エゴビジョンカメラとIMUの両方のデータを用いて細かい活動分類を行うとともに、IMUデータのみでは区別できない活動を識別するための自律的かつ堅牢な方法を提案します。従来の畳み込みニューラルネットワーク(CNN)ベースの手法とは異なり、我々はカプセルネットワークを用いてエゴセントリックビデオデータから特徴量を抽出することを提案します。さらに、畳み込み長期短期記憶(Convolutional LSTM)フレームワークをエゴセントリックビデオとIMUデータの両方に適用し、動作の時間的な側面を捉えることを目指しています。また、様々なネットワークパラメータを自律的かつ系統的に設定するためには遺伝的アルゴリズムベースのアプローチを提案しており、手動での設定ではなく自動的な最適化を行います。実験では9クラスおよび26クラスの人間活動分類を行い、提案手法は自律的に設定されたネットワークパラメータを使用して非常に有望な結果を得ました。それぞれ全体的な精度は86.6%と77.2%でした。本研究で提案した両モダリティを組み合わせたアプローチは、エゴビジョンデータのみやIMUデータのみを使用する場合よりも高い精度を提供しています。