12日前

LoCATe-GAT:ゼロショット行動認識のためのマルチスケール局所コンテキストおよび行動関係のモデル化

{Arijit Sur, Divyam Singal, Sandipan Sarma}
要約

現実世界における行動の増加により、従来の深層学習モデルでは未観測の行動を認識することが難しくなっている。近年、事前学習された対比型画像ベースの視覚言語(I-VL)モデルが、効率的な「ゼロショット」シーン理解に適応されつつある。このようなモデルをTransformerと組み合わせて時系列モデリングを実現することで、ゼロショット行動認識(ZSAR)において高い成果が得られている。しかし、物体および行動環境の局所的空間的文脈をモデル化する意義については、まだ十分に探求されていない。本研究では、新たな局所的文脈集約型時系列Transformer(LoCATe)とグラフ自己注意力ネットワーク(GAT)を組み合わせたZSARフレームワーク、LoCATe-GATを提案する。具体的には、事前学習済みI-VLモデルから抽出された画像およびテキスト符号化表現を、LoCATe-GATの入力として用いる。物体中心の文脈と環境的文脈が行動間の識別性および機能的類似性を決定するという観察に基づき、LoCATeは時系列モデリング中に拡張畳み込み層を用いて多スケールの局所的文脈を捉える。さらに、提案するGATはクラス間の意味的関係をモデル化し、LoCATeが生成する動画埋め込みと強い相乗効果を発揮する。UCF101、HMDB51、ActivityNet、Kineticsの4つの広く用いられるベンチマークにおいて実施した広範な実験の結果、最先端の性能を達成した。特に、従来のゼロショット設定ではUCF101およびHMDB51でそれぞれ3.8%および4.8%の相対的向上を、一般化ゼロショット設定ではUCF101で16.6%の相対的向上を達成した。大規模データセットであるActivityNetおよびKineticsでは、それぞれ従来手法に対して31.8%および27.9%の相対的改善を実現した。また、最新の「TruZe」評価プロトコルに基づく評価では、UCF101およびHMDB51でそれぞれ25.3%および18.4%の向上を達成した。

LoCATe-GAT:ゼロショット行動認識のためのマルチスケール局所コンテキストおよび行動関係のモデル化 | 最新論文 | HyperAI超神経