
要約
我々は、ジェスチャーや動作認識における最近の深層学習の進展に基づいて設計された、新しいエンドツーエンドの深層ネットワークモデルであるDeepGRUを提案します。このモデルは簡素化され、デバイスに依存しない特徴を持っています。DeepGRUは、生の骨格データ、姿勢データ、またはベクトルデータのみを使用し、理解しやすく、実装が簡単で、訓練も迅速に行えますが、難易度の高いデータセットにおいて最先端の結果を達成しています。当手法の中心には、スタックされたゲーテッドリカレントユニット(GRU)、2つの全結合層、および新規のグローバルアテンションモデルが位置しています。我々は7つの公開データセットで当手法を評価しました。これらのデータセットにはさまざまなサンプル数が含まれており、全身動作、複数人物間の相互作用、手のジェスチャーなど広範なインタラクションが網羅されています。その結果、1つの例外を除き、すべての場合で最先端の姿勢ベースの方法を上回りました。例えば、NTU RGB+Dデータセットでのクロスサブジェクトテストとクロスビューテストでは認識精度がそれぞれ84.9%と92.3%を達成しました。またUT-Kinectデータセットでは100%の認識精度を達成しました。DeepGRUは大規模なデータセットと多くの訓練サンプルに対して良好な性能を示しますが、訓練サンプル数が少ない場合でもクラスあたり4つのサンプル程度で伝統的な小規模訓練向け手法を超えることが示されました。最後に、強力なハードウェアなしでCPUのみを使用しても小規模データセットでの訓練が10分未満で完了することを示しており、これは急速なアプリケーションプロトタイピングや開発にとって魅力的な選択肢となっています。