
要約
スケルトンデータは、動的な環境や複雑な背景に対しても堅牢に動作するため、行動認識タスクにおいて広く利用されてきた。従来の手法では、スケルトンデータに含まれる関節情報とボーン(骨)情報の両方が、行動認識に著しく寄与することが実証されている。しかし、これらの二種類の情報をいかに統合し、関節とボーンの間の関係性を最大限に活かすかという点については、未解決の課題である。本研究では、人間の体における関節とボーン間の運動学的依存関係に基づき、スケルトンデータを有向非巡回グラフ(DAG)として表現する手法を提案する。さらに、関節、ボーンおよびそれらの関係性を効果的に抽出し、抽出された特徴に基づいて予測を行うための新しい有向グラフニューラルネットワークを設計した。また、行動認識タスクに適した性能を発揮するため、学習プロセスに基づいてグラフのトポロジカル構造を動的に適応させる仕組みを導入し、顕著な性能向上を達成した。さらに、スケルトンシーケンスの運動情報と空間情報を組み合わせ、二ストリームフレームワークにより性能をさらに向上させた。本研究で提案する最終モデルは、大規模データセットであるNTU-RGBDおよびSkeleton-Kinetics上で評価され、両データセットにおいて、従来の最先端技術を上回る性能を達成した。