8日前

RGB-Dを用いた動き認識における時空間表現の分離と再結合

Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang, Fan Wang, Du Zhang, Zhen Lei, Hao Li, Rong Jin

要約

空間時系列表現の分離（Decoupling spatiotemporal representation）とは、空間的および時系列的特徴を次元に依存しない要因に分解する手法を指す。従来のRGB-Dを用いた動き認識手法は、多モーダルな空間時系列表現を密に結合することで有望な性能を達成しているが、以下の課題に直面している。（i）空間時系列が強く絡み合ったモデル構造により、データ量が少ない状況下での最適化が困難となること；（ii）分類に弱く関連する多くの周辺情報（marginal information）を含むことによる情報の重複；（iii）十分な後期融合が行われていないため、多モーダルな空間時系列情報間の相互作用が低いこと。これらの課題を緩和するため、本研究ではRGB-Dに基づく動き認識のための空間時系列表現の分離と再結合を提案する。具体的には、空間時系列表現学習のタスクを以下の3つのサブタスクに分離する。（1）空間的および時系列的モデリングを分離したネットワークにより、高品質かつ次元に依存しない特徴を学習する。（2）分離された表現を再結合することで、より強固な空間時系列依存性を構築する。（3）RGB-Dデータから多モーダルな空間時系列情報を捉えるために、クロスモーダル適応的事後融合（Cross-modal Adaptive Posterior Fusion: CAPF）機構を導入する。これらの新規な設計をシームレスに統合することで、堅牢な空間時系列表現を構築し、4つの公開動きデータセットにおいて、最先端の手法を上回る性能を達成した。本研究のコードは、https://github.com/damo-cv/MotionRGBD にて公開されている。