17日前

多様な遮蔽を伴うワンショット骨格ベース行動認識の深層探査

Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen
多様な遮蔽を伴うワンショット骨格ベース行動認識の深層探査
要約

オクルージョン(遮蔽)は現実世界に普遍的に存在する持続的な障害であり、特に人間の骨格を表すスパース表現において、わずかな点の遮蔽が幾何学的および時間的連続性を著しく損なうため、結果に重大な影響を及ぼすことがある。しかし、骨格シーケンスからのデータが少ない認識、例えばワンショット行動認識(one-shot action recognition)に関する研究は、日常的に見られるオクルージョンを明示的に考慮していない。本研究では、骨格に基づくワンショット行動認識(Skeleton-based One-shot Action Recognition, SOAR)において、身体のオクルージョンを明示的に取り扱う。主に2種類のオクルージョンを検討する:1)ランダムなオクルージョン、および2)日常生活における多様な物体によって引き起こされるより現実的なオクルージョン。後者については、既存のIKEA 3D家具モデルを、異なる幾何学的パラメータで3D骨格のカメラ座標系に投影することで生成する。提案するパイプラインを用いて、3つの代表的な行動認識データセットの骨格シーケンスの一部を合成的に遮蔽し、部分的に遮蔽されたボディポーズからのSOARのための初めてのベンチマークを構築した。本ベンチマークの重要な特徴は、日常生活の物体によって生成されるより現実的なオクルージョンの導入である。従来の3D骨格からの標準的な認識では、ランダムに欠落した関節のみが考慮されてきたが、本研究ではより現実的な設定を採用している。本研究では、この新たなタスクを踏まえて、既存の最先端SOARフレームワークを再評価し、さらに三つのデータストリームを活用し、混合アテンション融合機構を採用した新規のTransformerベースモデル「Trans4SOAR」を提案する。実験結果から、骨格の一部が欠落することで認識精度が顕著に低下することが確認されたが、Trans4SOARはその影響を著しく軽減しており、すべてのデータセットで他のアーキテクチャを上回る性能を示した。本研究はオクルージョンに特化しているが、遮蔽なしの標準的なSOARにおいても、Trans4SOARは最先端の性能を達成し、NTU-120データセットにおいて、既存で最も優れた手法を2.85%上回った。