2ヶ月前
長期特徴バンクによる詳細なビデオ理解
Wu, Chao-Yuan ; Feichtenhofer, Christoph ; Fan, Haoqi ; He, Kaiming ; Krähenbühl, Philipp ; Girshick, Ross

要約
世界を理解するためには、私たちは常に現在を過去と関連付ける必要があり、事象を文脈に置く必要があります。本論文では、既存のビデオモデルが同じように機能できるようにすることを目指しています。私たちは、ビデオ全体の範囲から抽出された補助情報である「長期特徴バンク」を提案します。これにより、通常2〜5秒の短いクリップしか見ることができない最先端のビデオモデルを強化することができます。実験結果は、3次元畳み込みニューラルネットワークに長期特徴バンクを追加することで、AVA、EPIC-Kitchens、Charadesという3つの難易度の高いビデオデータセットにおいて最先端の成果を得られることを示しています。