
要約
本論文では、自己監督の概念を発展させ、RGBフレームを入力としてアクション概念と補助記述子(例:物体記述子)を学習して予測する手法を開発しています。幻覚ストリームと呼ばれるものは、補助的な手がかりを予測するために訓練され、分類層に同時に供給され、テスト段階でネットワークを支援するために幻覚化されます。私たちは2つの記述子を設計し、幻覚化しました。1つは、トレーニングビデオに適用された4つの一般的な物体検出器を使用し、もう1つは画像レベルおよびビデオレベルの注目度検出器を使用しています。最初の記述子は、検出器とImageNetに基づくクラス予測スコア、信頼度スコア、バウンディングボックスの空間位置とフレームインデックスをエンコードして、各ビデオにおける特徴量の時空間分布を捉えます。別の記述子は、注目度マップと強度パターンの空間角度勾配分布をエンコードします。確率分布の特性関数に着想を得て、上記の中間記述子に対して4つの統計的モーメントを捉えています。平均値、共分散行列、偏度(skewness)、尖度(kurtosis)の係数数が特徴ベクトルの次元に対して線形的に、二次的に、三次的にそして四次的に増加するため、共分散行列はその主要なn'個の固有ベクトル(いわゆる部分空間)によって説明され、高コストとなる共偏度(coskewness)や共尖度(cokurtosis)ではなく偏度や尖度が捉えられます。この手法により、CharadesやEPIC-Kitchensなど5つの一般的なデータセットにおいて最先端の性能を達成しました。