2ヶ月前

3次元畳み込みネットワークを用いた時空間特徴の学習

Du Tran; Lubomir Bourdev; Rob Fergus; Lorenzo Torresani; Manohar Paluri
3次元畳み込みネットワークを用いた時空間特徴の学習
要約

私たちは、大規模な教師ありビデオデータセットを用いて深層3次元畳み込みニューラルネットワーク(3D ConvNets)で学習した空間時間特徴量の学習手法を提案します。本研究の結果は以下の3点にまとめられます:1) 3D ConvNetsは2D ConvNetsよりも空間時間特徴量の学習に適している;2) 全ての層で小さな3x3x3畳み込みカーネルを使用する均一なアーキテクチャが、3D ConvNetsの中で最も高性能なアーキテクチャの一つである;そして3) 私たちが学習した特徴量、すなわちC3D(Convolutional 3D)は単純な線形分類器と組み合わせることで、4つの異なるベンチマークにおいて最先端の方法を上回り、他の2つのベンチマークでも現在の最良の方法と同等の性能を示しました。さらに、これらの特徴量はコンパクトであり、UCF101データセットではわずか10次元で52.8%の精度を達成しています。また、ConvNetsによる高速推論のおかげで計算効率も非常に高いです。最後に、これらの特徴量は概念的に非常に単純で、訓練や使用も容易です。

3次元畳み込みネットワークを用いた時空間特徴の学習 | 最新論文 | HyperAI超神経