Command Palette
Search for a command to run...
私の視点、私の手元:正確なエゴセントリック2D手の姿勢と行動認識
私の視点、私の手元:正確なエゴセントリック2D手の姿勢と行動認識
Wiktor Mucha Martin Kampel
概要
エゴセントリック動画理解において、行動認識は、ユーザーの負担なく日常行動(ADL)を自動的かつ継続的にモニタリング可能にするために不可欠である。従来の研究は、計算負荷の高い深度推定ネットワークや不快な深度センサーを必要とする3D手のポーズ入力を中心に進展してきた。一方で、市場に普及しているユーザーフレンドリーなスマートグラスが単一のRGB画像を取得可能なことから、エゴセントリック行動認識における2D手のポーズ理解に関する研究は依然として不足している。本研究は、この研究ギャップを埋めるべく、エゴセントリック行動認識における2D手のポーズ推定の分野に焦点を当て、以下の2つの貢献を行う。第一に、単一手のポーズ推定を目的としたEffHandNetと、エゴセントリック視点に特化し、手と物体の相互作用を捉えるEffHandEgoNetという2つの新しい2D手のポーズ推定手法を提案する。これらの手法は、H2OおよびFPHAの公開ベンチマークにおいて、既存の最先端モデルを上回る性能を示した。第二に、2D手および物体のポーズから行動認識を行う堅牢なアーキテクチャを提示する。本手法はEffHandEgoNetと、トランスフォーマーに基づく行動認識手法を統合しており、H2OおよびFPHAデータセット上で評価された結果、推論時間が高速でありながら、それぞれ91.32%および94.43%の精度を達成し、3Dベースの手法を含む既存の最先端手法を上回った。本研究は、2D骨格データを用いることがエゴセントリック行動理解において堅牢なアプローチであることを示している。広範な評価およびアブレーションスタディにより、手のポーズ推定手法の影響や、各入力が全体的な性能に与える寄与が明確に示された。