Command Palette
Search for a command to run...
ActionVLAD:行動分類のための空間時系列集約学習
ActionVLAD:行動分類のための空間時系列集約学習
Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan
概要
本研究では、動画全体の空間時間領域にわたって局所的な畳み込み特徴を統合する新しい動画表現を提案する。この表現は、最先端の二重ストリームネットワークと学習可能な空間時間特徴統合を組み合わせることで実現される。その結果得られるアーキテクチャは、動画全体の分類に対してエンド・ツー・エンドで訓練可能である。空間と時間方向におけるプーリング戦略、および異なるストリームからの信号の統合方法について検討した結果、以下のことが明らかになった:(i) 空間と時間方向を同時にプーリングすることが重要であり、(ii) 外観ストリームと運動ストリームは、それぞれ独立した表現に統合されるのが最適である。さらに、本研究で提案する表現は、HMDB51、UCF101、Charadesの動画分類ベンチマークにおいて、二重ストリームベースアーキテクチャを大幅に上回り(相対的に13%の改善)、類似のベースアーキテクチャを持つ他のベースラインよりも優れた性能を示した。