
要約
本稿の目的は、人間と機械の相互作用を背景とした動的ジェスチャー認識に焦点を当てるものである。本研究では、トランスフォーマーと順序ニューロン長短期記憶(ON-LSTM)に基づく再帰型ニューラルネットワーク(RNN)という二つのサブネットワークから構成されるモデルを提案する。各サブネットワークは、骨格関節情報のみを用いてジェスチャー認識タスクを学習する。アーキテクチャの違いにより、各サブネットワークは異なる種類の特徴を抽出するため、それらの知識を共有することが可能となる。知識蒸留(knowledge distillation)を用いて、各サブネットワークの特徴量および予測結果を統合し、新たな統合分類器を構築する。さらに、サイクル学習率を用いることで、多数のモデルを生成し、アンサンブルにより統合することで、より汎化性能の高い予測を達成する。提案する知識共有型アンサンブルモデルは、Dynamic Hand Gesture-14/28データセットを用いた実験において、骨格情報のみを用いて全体の正解率86.11%を達成した。