
要約
多くの行動認識データセットは、それぞれに関連する行動が含まれている短い、編集されたビデオの集合で構成されています。しかし、実世界のビデオ(例えば、YouTube上のビデオ)は非常に異なる特性を持っています:これらのビデオはしばしば数分間続き、短い関連クリップが長時間の変化の少ないセグメントと交互に現れます。このようなビデオ内のすべての時間的クリップに対して行動認識システムを高密度に適用することは、費用がかかりすぎます。さらに、我々の実験で示すように、この方法では情報量のある予測が長い非情報的なセクションでの意味のない分類出力によって圧倒されてしまい、認識精度が低下します。本論文では、長時間ビデオ内で最も重要な時間的クリップを効率的に特定できる軽量な「クリップサンプリング」モデルを導入します。我々は、このモデルを使用することで、トリミングされていないビデオにおける行動認識の計算コストを大幅に削減できることを示します。さらに、すべてのクリップやランダム/均一に選択されたクリップを分析する方法と比較して、認識精度が大幅に向上することも示しています。Sports1Mにおいて、我々のクリップサンプリング手法は既存の最先端の行動分類器の精度を7%向上させるとともに、その計算コストを15倍以上削減しています。