2ヶ月前
FASTER 再帰ネットワークによる効率的なビデオ分類
Linchao Zhu; Laura Sevilla-Lara; Du Tran; Matt Feiszli; Yi Yang; Heng Wang

要約
一般的動画分類手法では、動画を短いクリップに分割し、各クリップに対して独立して推論を行い、その後クリップレベルの予測結果を集約して動画全体の結果を生成することが多いです。しかし、視覚的に類似したクリップを独立して処理することは、動画シーケンスの時間的構造を見逃し、推論時の計算コストを増加させます。本論文では、FASTER(Feature Aggregation for Spatio-TEmporal Redundancy)と名付けられた新しいフレームワークを提案します。FASTERは、隣接するクリップ間の冗長性を利用し、異なる複雑さを持つモデルからの予測結果を集約することで計算コストを削減することを目指しています。FASTERフレームワークは、高品質な表現を提供する高コストモデルから微妙な動き情報を捉えつつ、低コストモデルから軽量な表現を得て動画内のシーン変化をカバーすることができます。新たにFAST-GRUという再帰型ネットワークが設計され、異なる表現の混合を集約します。既存の手法と比較して、FASTERはKinetics, UCF-101, HMDB-51などの主要データセットにおいて最先端の精度を維持しつつ、FLOPs(Floating Point Operations Per Second)を10倍以上削減できます。