2ヶ月前

部位意識統一表現の言語と骨格のためのゼロショット行動認識

Anqi Zhu; Qiuhong Ke; Mingming Gong; James Bailey
部位意識統一表現の言語と骨格のためのゼロショット行動認識
要約

監督された骨格ベースの動作認識においては、著しい進歩が見られていますが、ゼロショット認識の課題はまだ十分に研究されていません。本論文では、ラベルレベルの意味と全体的な骨格特徴のみに依存することは、視覚的な知識を既知のクラスから未知のクラスへ効果的に転送するのに十分でないという主張を行います。この制約に対処するために、言語と骨格間での部分意識的な統一表現(Part-aware Unified Representation between Language and Skeleton: PURLS)を導入し、局所的および全体的なスケールでの視覚-意味対応を探索します。PURLSは新しいプロンプトモジュールと独自のパーティショニングモジュールを導入し、異なるレベルでのテキスト表現と視覚表現の整合性を生成します。前者は事前学習済みのGPT-3を使用して、元の動作ラベルから全体的および局所的な(体部位に基づくおよび時間間隔に基づく)動きの洗練された説明を推論します。後者は適応サンプリング戦略を用いて、特定の説明に関連する意味を持つすべての関節運動からの視覚特徴量をグループ化します。当手法は様々な骨格/言語バックボーンと3つの大規模データセット(NTU-RGB+D 60, NTU-RGB+D 120, および新規に整備したKinetics-skeleton 200)で評価されました。結果はPURLSの普遍性と優れた性能を示しており、以前の骨格ベースの解決策や他の分野からの標準的な基準モデルを超えるものとなっています。ソースコードはhttps://github.com/azzh1/PURLSで入手可能です。

部位意識統一表現の言語と骨格のためのゼロショット行動認識 | 最新論文 | HyperAI超神経