11日前

アクション認識のためのテンソル表現

Piotr Koniusz, Lei Wang, Anoop Cherian
アクション認識のためのテンソル表現
要約

動画シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスとの複雑な相互作用によって特徴づけられる。本論文では、行動認識タスクにおいて視覚特徴間の高次元関係を効率的に捉えるための新しいテンソル表現を提案する。我々は、(i) シーケンス適合性カーネル(SCK)および (ii) ダイナミクス適合性カーネル(DCK)という2種類のテンソルベースの特徴表現を提案する。SCKは特徴間の空間時間的相関に着目するのに対し、DCKはシーケンスの行動ダイナミクスを明示的にモデル化する。さらに、SCKの一般化として、部分シーケンス上で動作するSCK(+)を検討し、局所的・グローバルな相関の相互作用を捉える。このアプローチは、骨格の3Dボディジョイントや、動画データ上で学習された深層学習モデルから得られるフレームごとの分類スコアといったマルチモーダル入力を統合可能である。また、これらのカーネルの線形化を導入することで、コンパクトかつ高速な記述子を実現する。本研究では、(i) 3D骨格行動シーケンス、(ii) 細分化された動画シーケンス、(iii) 一般的な非細分化動画の3つのデータセットに対して実験を実施する。本研究の最終的な表現は、特徴の高次元関係を捉えるテンソルであり、微細な行動認識において特徴の共起(co-occurrence)を強靭に表現する。高次元テンソルと、長年にわたり高次元共起のスペクトル検出に有効であるとされてきた「固有値パワー正規化(Eigenvalue Power Normalization: EPN)」を用いることで、行動シーケンス内の特徴を単にカウントするのではなく、微細な特徴間関係を検出可能となる。本論文では、Z次元の特徴から構成されるr次のテンソルにEPNを適用した場合、そのテンソルが表すdim. rの部分空間(全binom(Z, r)個)のいずれかに、少なくとも1つの高次元共起が「射影(projected)」されているかを検出可能であることを理論的に証明する。これにより、binom(Z*, r)個の「検出器」を備えたテンソルパワー正規化指標(Tensor Power Normalization metric)が構築可能となる。