8ヶ月前

概要

手のジェスチャ認識（HGR）は、さまざまな実世界の文脈で直感的な人間とコンピュータとの相互作用を可能にします。しかし、既存のフレームワークはしばしば実用的なHGRアプリケーションに必要なリアルタイム要件を満たすことが困難です。本研究では、動的なHGRを静止画分類タスクに簡素化し、ハードウェアと計算リソースの負担を効果的に軽減する堅牢な骨格ベースのフレームワークを提案します。当該フレームワークは、動的ジェスチャから得られる3D骨格データを静止RGB時空間画像にエンコードするデータレベルでの融合技術を利用しています。また、データ表現間の意味論的関連性を最適化しながら計算需要を最小限に抑えるための専門的なエンドツーエンド・アンサンブルチューナー（e2eET）マルチストリームCNNアーキテクチャを取り入れています。5つのベンチマークデータセット（SHREC'17, DHG-14/28, FPHA, LMDHG, CNR）でのテストにおいて、このフレームワークは最先端技術と競合する性能を示しました。標準的な消費者向けPCハードウェア上で展開された結果、低遅延と最小限のリソース使用という実世界環境での優れた特性が確認されました。このフレームワークの成功した展開は、仮想/拡張現実、環境知能、補助技術などの分野におけるリアルタイムHGRアプリケーションの強化への可能性を示しており、動的ジェスチャ認識に対するスケーラブルかつ効率的な解決策を提供しています。

ソースPDF