要約
手のジェスチャー認識は、豊富な幾何学的情報を保持する3Dポイントクラウドシーケンスを直接処理することで恩恵を受けることができる。これにより、表現力豊かな時空間特徴の学習が可能となる。しかし、現在一般的に用いられている単一ストリームモデルでは、細部の局所的なポージョン変化と全体的な手の動きを含むマルチスケール特徴を十分に捉えることができない。そこで、局所的特徴とグローバル特徴の学習を分離する新たな二重ストリームモデルを提案する。これらの特徴は最終的にLSTMを用いて時系列モデリングのために融合される。グローバルストリームとローカルストリームが補完的な位置情報とポージョン特徴をそれぞれ捉えるように促すため、両ストリームに異なる3D学習アーキテクチャを採用することを提案する。具体的には、最先端のポイントクラウドネットワークが、ローカルストリームにおいて生のポイントクラウドから細かなポージョン変化を効果的に捉えることに優れている。一方、グローバルストリームでは、残差ベースの基底ポイント集合による符号化と完全結合型DenseNetを組み合わせることで、手の動きを効果的に追跡する。本手法はShrec'17およびDHGデータセット上で評価され、計算コストを低減しつつ、最新の性能を達成した。ソースコードは以下のURLで公開されている:https://github.com/multimodallearning/hand-gesture-posture-position。