2ヶ月前
視野を広げて自己監督型ビデオ学習に取り組もう
Adrià Recasens; Pauline Luc; Jean-Baptiste Alayrac; Luyu Wang; Ross Hemsley; Florian Strub; Corentin Tallec; Mateusz Malinowski; Viorica Patraucean; Florent Altché; Michal Valko; Jean-Bastien Grill; Aäron van den Oord; Andrew Zisserman

要約
最も成功した自己監督学習の手法は、データから独立した2つの視点の表現を合わせるための訓練が行われています。ビデオ分野における最先端の手法は、画像技術にインスピレーションを受けたものであり、これらの2つの視点は同様にクロッピングと拡張によって抽出されます。しかし、これらの手法はビデオ分野において重要な要素である「時間」を欠いています。ここでは、BraVe(Broad and Narrow Views for Self-Supervised Video Learning)という自己監督学習フレームワークを導入します。BraVeでは、一方の視点がビデオの狭い時間窓にアクセスし、他方の視点がビデオコンテンツ全体に広くアクセスできます。当該モデルは、狭い視点からビデオの一般的な内容へと一般化する能力を学習します。さらに、BraVeは異なるバックボーンを使用して視点を処理することで、光学フロー、ランダムに畳み込まれたRGBフレーム、音声やそれらの組み合わせなどの代替的な拡張やモダリティを広い視点に取り込むことが可能となります。私たちは、UCF101, HMDB51, Kinetics, ESC-50, AudioSetなどの標準的なビデオおよび音声分類ベンチマークで、BraVeが自己監督表現学習において最先端の結果を達成することを示しています。