2ヶ月前

時空間特徴学習の再考:ビデオ分類における速度と精度のトレードオフ

Saining Xie; Chen Sun; Jonathan Huang; Zhuowen Tu; Kevin Murphy
時空間特徴学習の再考:ビデオ分類における速度と精度のトレードオフ
要約

畳み込みニューラルネットワーク(CNN)の導入により、ビデオ解析は着実に進展していますが、2次元静止画像分類における改善と比較すると、その相対的な改善はそれほど劇的ではありません。主な課題には空間(画像)特徴表現、時間情報表現、およびモデル/計算複雑さが含まれます。CarreiraとZissermanは最近、2次元ネットワークから拡大され、ImageNetで事前学習された3次元CNNが空間と時間表現学習の有望な手法であることを示しました。しかし、モデル/計算複雑さに関しては、3次元CNNは2次元CNNよりもずっと高コストであり、過学習しやすいという問題があります。私たちは速度と精度のバランスを追求し、重要なネットワーク設計選択肢を系統的に探索することで効果的かつ効率的なビデオ分類システムを構築します。特に、多くの3次元畳み込みを低コストの2次元畳み込みで置き換えることが可能であることを示します。意外にも、ネットワークの下部にある3次元畳み込みを置き換えた場合に最良の結果(速度と精度の両面で)が得られました。これは、高レベルの意味論的特徴での時間表現学習がより有用であることを示唆しています。私たちの結論は非常に異なる特性を持つデータセットにも一般化されます。さらに、分離可能な空間/時間畳み込みや特徴ゲーティングなどの他のいくつかのコスト効果のある設計との組み合わせにより、私たちのシステムは効果的なビデオ分類システムとなり、Kinetics, Something-something, UCF101, HMDBなどのいくつかの動作分類ベンチマークにおいて非常に競争力のある結果を生み出します。また、JHMDBおよびUCF101-24の2つの動作検出(位置特定)ベンチマークでも優れた性能を発揮します。

時空間特徴学習の再考:ビデオ分類における速度と精度のトレードオフ | 最新論文 | HyperAI超神経