
要約
自己監督学習は、ラベルのないモデルの事前学習において効果的な方法であり、特にラベリングが高コストとなるビデオ領域での応用が注目されています。現存するビデオ領域における自己監督学習の研究では、異なる実験設定が使用されており、手法間の比較が標準的なベンチマークがないため困難となっています。本研究では、まず既存の手法を同じ基準で比較できるベンチマークを提供します。次に、ビデオにとって重要な自己監督学習の5つの側面について検討します。1) データセットのサイズ、2) 複雑さ、3) データ分布、4) データノイズ、5) 特徴量分析です。この研究を支援するために、7つの異なる手法と7つの異なるネットワークアーキテクチャに焦点を当て、5つの異なるデータセット上で2つの異なる下流タスクの評価を行う一連の広範な実験を行いました。本研究から得られたいくつかの興味深い洞察を提示し、それらは事前学習と対象データセットのさまざまな特性、前置タスク(pretext-tasks)、およびモデルアーキテクチャなどにわたります。さらに、これらの洞察の中のあるものを実際のテストにかけ、限られた量の訓練データを使用しながら既存の最先端手法(10倍以上の事前学習データを使用)を超える性能を達成するアプローチを提案します。私たちはこの研究がビデオ表現学習における自己監督前置タスクに対する理解を深めるために研究者たちに道を開くものと信じています。