2ヶ月前

チャンネル分離畳み込みネットワークを用いたビデオ分類

Du Tran; Heng Wang; Lorenzo Torresani; Matt Feiszli
チャンネル分離畳み込みネットワークを用いたビデオ分類
要約

グループ畳み込みは、画像分類のための様々な2次元畳み込みアーキテクチャにおいて大きな計算量削減をもたらすことが示されています。自然に次の疑問が生じます:1) グループ畳み込みが、動画分類ネットワークの高い計算コストを軽減できるかどうか;2) 3次元グループ畳み込みネットワークにおいて最も重要な要因は何であるか;3) 3次元グループ畳み込みネットワークにおける良い計算量と精度のトレードオフは何か。本論文では、動画分類のための3次元グループ畳み込みネットワークにおける異なる設計選択肢の効果を研究しています。実験的に、チャンネル間相互作用の量が3次元グループ畳み込みネットワークの精度に重要な役割を果たすことが示されました。我々の実験は主に二つの知見を提案しています。第一に、チャンネル間相互作用と空間時間相互作用を分離することにより3次元畳み込みを分解することが、精度向上と計算コスト低減につながることから、これは良い実践であると言えます。第二に、3次元チャンネル別畳み込みは正則化の一形態を提供し、3次元畳み込みと比較して訓練時の精度は低いもののテスト時の精度は高いという結果を得ました。これらの二つの経験的な知見に基づき、シンプルで効率的かつ高精度なアーキテクチャ -- チャンネル別畳み込みネットワーク(Channel-Separated Convolutional Network, CSN) -- を設計しました。Sports1M, Kinetics, Something-Somethingにおいて、我々のCSNは現行最良手法と同等かそれ以上の性能を示しながら、2〜3倍の効率性を達成しています。

チャンネル分離畳み込みネットワークを用いたビデオ分類 | 最新論文 | HyperAI超神経