11日前

VPN:日常活動のための動画ポーズ埋め込み学習

Srijan Das, Saurav Sharma, Rui Dai, Francois Bremond, Monique Thonnat
VPN:日常活動のための動画ポーズ埋め込み学習
要約

本稿では、日常生活動作(ADL: Activities of Daily Living)の認識における空間時間的側面に注目する。ADLには以下の2つの特徴がある:(i) 極めて微細な空間時間パターン、(ii) 時間とともに変化する類似した視覚パターン。そのため、ADL同士は外見上非常に類似しており、区別するには細部にまで注目する必要がある。近年の空間時間的3D ConvNetは、行動全体にわたる微細な視覚パターンを捉えるのに柔軟性に欠けるため、本研究では新たな動画・ポーズネットワーク(Video-Pose Network: VPN)を提案する。このVPNの2つの主要な構成要素は、空間的埋め込み(spatial embedding)と注目機構(attention network)である。空間的埋め込みは、3Dポーズ情報とRGB特徴を共通の意味空間に投影することで、両モダリティを統合的に活用したより優れた空間時間特徴の学習を可能にする。類似した動作を区別するために、注目機構は以下の2つの機能を提供する:(i) 人体の構造的トポロジーを活用したエンド・ツー・エンド学習可能なポーズベースライン、(ii) 動画全体にわたる関節レベルの空間時間的注目重みを提供するコアラ(coupler)。実験の結果、VPNは大規模な人体活動データセットNTU-RGB+D 120およびそのサブセットであるNTU-RGB+D 60、現実世界の難易度の高い人体活動データセットToyota Smarthome、さらに小規模な物体・人間インタラクションデータセットNorthwestern UCLAにおいて、既存の最先端手法を上回る行動分類性能を達成した。

VPN:日常活動のための動画ポーズ埋め込み学習 | 最新論文 | HyperAI超神経