HyperAIHyperAI

Command Palette

Search for a command to run...

リアルタイム手のジェスチャ検出と分類における畳み込みニューラルネットワークの利用

Okan Köpüklü Ahmet Gunduz Neslihan Kose Gerhard Rigoll

概要

動画ストリームからのリアルタイムの動的手勢認識は、以下の理由から困難な課題となっています。(i) 動画内で手勢がいつ始まり、いつ終わるかの明確な指標がないこと、(ii) 実行された手勢は一度だけ認識されるべきであること、(iii) 全体的なアーキテクチャ設計にはメモリと電力予算を考慮する必要があることです。本研究では、これらの課題に対処するために、スライディングウィンドウ手法を使用してオフラインで動作する畳み込みニューラルネットワーク(CNN)アーキテクチャをオンラインで効率的に動作させる階層構造を提案します。提案されたアーキテクチャは2つのモデルから構成されています。(1) 手勢を検出するための軽量なCNNアーキテクチャである検出器と (2) 検出された手勢を分類するための深層CNNである分類器です。検出された手勢の単回活性化を評価するために、レビンシュタイン距離を使用することを提案します。これは誤認識、複数回検出、未検出を同時に測定できるためです。我々はEgoGestureおよびNVIDIA Dynamic Hand Gesture Datasetsという2つの公開データセットでアーキテクチャを評価しました。これらのデータセットでは、実行された手勢の時間的な検出と分類が必要となります。分類器として使用されるResNeXt-101モデルは、EgoGestureおよびNVIDIAベンチマークにおいて深度モダリティでのオフライン分類精度がそれぞれ94.04%および83.82%という最先端の結果を達成しています。リアルタイムの検出と分類では、オフライン操作に近い性能を維持しながら有意義な早期検出を得ています。本研究で使用したコードと事前学習済みモデルは公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
リアルタイム手のジェスチャ検出と分類における畳み込みニューラルネットワークの利用 | 記事 | HyperAI超神経