2ヶ月前

少ないフレームを使用した効率的なビデオ分類

Shweta Bhardwaj; Mukundhan Srinivasan; Mitesh M. Khapra
少ないフレームを使用した効率的なビデオ分類
要約

最近、動画分類のためのメモリ容量が小さい(1 GB未満)コンパクトモデルの開発に大きな関心が寄せられています。これらのモデルはコンパクトですが、通常、動画内のすべてのフレームに対して小さな重み行列を繰り返し適用することで動作します。例えば、再帰型ニューラルネットワーク(RNN)ベースの手法では、再帰的な重み行列を使用して動画の各フレームに対して隠れ状態を計算します。同様に、NetVLADなどのクラスタリングと集約に基づく手法では、学習可能なクラスタリング行列を使用して動画内の各フレームにソフトクラスタリングを割り当てます。これらのモデルは動画内のすべてのフレームを見ることから、メモリ容量が小さくても浮動小数点演算(FLOPs)の回数は依然として多いです。本研究では、より少ないフレームを処理するための計算効率の高い動画分類モデルの構築に焦点を当てています。これによりFLOPsが減少します。メモリ効率の高いモデルと同様に、蒸留(distillation)というアイデアを利用していますが、設定は異なります。具体的には、当研究では動画内のすべてのフレームを見る計算量が多い教師モデルを使用して、動画内の一部のみを見る計算効率が高い学生モデルを訓練します。これは一般的なメモリ効率の高い教師-学生設定とは対照的で、両方とも動画内のすべてのフレームを見るものの学生モデルの方がパラメータ数が少ないという特徴があります。したがって、本研究はメモリ効率の高い動画分類に関する研究を補完するものです。私たちは3種類の動画分類モデルについて広範な評価を行い、(i) 再帰型モデル (ii) クラスタリングと集約に基づくモデル (iii) メモリ効率の高いクラスタリングと集約に基づくモデルにおいて、それぞれの場合において全フレームを見る教師モデルを使用して非常に少ないフレームしか見ない計算効率が高い学生モデルを訓練できることを示しました。提案された学生ネットワークは性能低下をおさえたまま推論時間を30%削減し、FLOPsも約90%削減できることが確認されました。

少ないフレームを使用した効率的なビデオ分類 | 最新論文 | HyperAI超神経