17日前

空間と時間における自己類似性の学習としての一般化運動による動画行動認識

Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho

要約

時空間畳み込みは動画における運動ダイナミクスを十分に学習できないことが多く、実世界における動画理解には効果的な運動表現が不可欠である。本論文では、時空間自己類似性（Spatio-Temporal Self-Similarity, STSS）に基づく豊かで堅牢な運動表現を提案する。与えられたフレーム列に対して、STSSは各局所領域を空間的・時間的に隣接する領域との類似性として表現する。外観特徴を関係性値に変換することで、学習器が空間的・時間的構造パターンをより正確に認識できるようにする。本手法ではSTSSの全体的な体積を活用し、モデルがその中から効果的な運動表現を学習するように設計している。提案するニューラルブロック「SELFY」は、既存のニューラルネットワークアーキテクチャに容易に統合可能であり、追加の教師信号なしにエンドツーエンドで学習可能である。空間的・時間的に十分な近傍領域を考慮することで、動画内の長期的な相互作用および高速な運動を効果的に捉え、堅牢な行動認識を実現する。実験結果により、従来の運動モデリング手法に比べて優れた性能を示すとともに、直接畳み込みから得られる時空間特徴と補完的な関係にあることも明らかになった。標準的な行動認識ベンチマーク、Something-Something-V1 & V2、Diving-48、FineGymにおいて、本手法は最先端の性能を達成した。