2ヶ月前

リアルタイム手のジェスチャ検出と分類における畳み込みニューラルネットワークの利用

Okan Köpüklü; Ahmet Gunduz; Neslihan Kose; Gerhard Rigoll
リアルタイム手のジェスチャ検出と分類における畳み込みニューラルネットワークの利用
要約

動画ストリームからのリアルタイムの動的手勢認識は、以下の理由から困難な課題となっています。(i) 動画内で手勢がいつ始まり、いつ終わるかの明確な指標がないこと、(ii) 実行された手勢は一度だけ認識されるべきであること、(iii) 全体的なアーキテクチャ設計にはメモリと電力予算を考慮する必要があることです。本研究では、これらの課題に対処するために、スライディングウィンドウ手法を使用してオフラインで動作する畳み込みニューラルネットワーク(CNN)アーキテクチャをオンラインで効率的に動作させる階層構造を提案します。提案されたアーキテクチャは2つのモデルから構成されています。(1) 手勢を検出するための軽量なCNNアーキテクチャである検出器と (2) 検出された手勢を分類するための深層CNNである分類器です。検出された手勢の単回活性化を評価するために、レビンシュタイン距離を使用することを提案します。これは誤認識、複数回検出、未検出を同時に測定できるためです。我々はEgoGestureおよびNVIDIA Dynamic Hand Gesture Datasetsという2つの公開データセットでアーキテクチャを評価しました。これらのデータセットでは、実行された手勢の時間的な検出と分類が必要となります。分類器として使用されるResNeXt-101モデルは、EgoGestureおよびNVIDIAベンチマークにおいて深度モダリティでのオフライン分類精度がそれぞれ94.04%および83.82%という最先端の結果を達成しています。リアルタイムの検出と分類では、オフライン操作に近い性能を維持しながら有意義な早期検出を得ています。本研究で使用したコードと事前学習済みモデルは公開されています。