2ヶ月前

自己中心行動認識のための特権情報を持つ共存的注意

Wang, Xiaohan ; Wu, Yu ; Zhu, Linchao ; Yang, Yi
自己中心行動認識のための特権情報を持つ共存的注意
要約

エゴセントリックビデオ認識は、多様な相互作用推論の自然なテストベッドである。エゴセントリックビデオデータセットに含まれる大量の動作語彙により、最近の研究では通常、動作認識のために二つのブランチ構造を用いている。すなわち、動詞分類用の一つのブランチと名詞分類用のもう一つのブランチである。しかし、動詞と名詞のブランチ間での相関関係の研究はほとんど無視されてきた。さらに、位置情報に注意を払うメカニズムが欠けているため、両方のブランチは局所的な特徴を十分に活用できていない。本論文では、エゴセントリックビデオ認識に特権情報(Privileged Information)を利用した新しい共生注意フレームワーク(Symbiotic Attention Framework, SAP)を提案する。より詳細な位置情報を意識した物体検出特徴量は、アクターと物体との相互作用の理解を促進することができる。これらの特徴量を動作認識に導入し、特権情報として扱うことでその理解が深まる。我々のフレームワークは、動詞ブランチ、名詞ブランチ、および特権情報間での相互コミュニケーションを可能にする。このコミュニケーションプロセスは、全体的な特徴量に局所的な詳細を注入するとともに、進行中の動作の時空間的位置に関する暗黙的なガイダンスも活用する。我々は新しい共生注意(Symbiotic Attention, SA)を導入して効果的なコミュニケーションを実現する。まず、一方のブランチで検出ガイドされた特徴量を正規化し、他方のブランチから動作に関連する情報を強調する。SAは三つの情報源間での相互作用を適応的に強化する。さらにこのコミュニケーションを促進するために、空間関係が明らかにされ最適な動作関連情報を選択する。これにより最も価値があり且つ識別力のある特徴量が特定される。我々は定量的および定性的評価を通じてSAPの有効性を確認した。特に注目に値するのは、SAPが大規模なエゴセントリックビデオデータセット2つにおいて最先端(state-of-the-art)の性能を達成していることである。

自己中心行動認識のための特権情報を持つ共存的注意 | 最新論文 | HyperAI超神経