2ヶ月前

ActionVLAD: アクション分類のための時空間集約学習

Girdhar, Rohit ; Ramanan, Deva ; Gupta, Abhinav ; Sivic, Josef ; Russell, Bryan
ActionVLAD: アクション分類のための時空間集約学習
要約

本研究では、動画全体の空間時間領域にわたる局所畳み込み特徴量を集約する新しい動画表現を提案します。これにより、最先端の二ストリームネットワークと学習可能な空間時間特徴量集約を統合することが可能となります。得られたアーキテクチャは、動画全体の分類に対してエンドツーエンドで学習可能です。我々は、空間と時間にわたるプーリング戦略や異なるストリームからの信号の組み合わせ方について様々な手法を検討しました。その結果、(i) 空間と時間を同時にプーリングすることが重要であるが、(ii) 外観と運動のストリームはそれぞれ別々の表現に集約するのが最適であることが明らかになりました。最後に、我々の表現が二ストリームベースアーキテクチャよりも大幅に(相対的に13%)優れていることを示し、HMDB51、UCF101、およびCharades動画分類ベンチマークにおいて同等のベースアーキテクチャを持つ他の基準モデルも上回っていることを確認しました。