2ヶ月前

時空間対照的なビデオ表現学習

Rui Qian; Tianjian Meng; Boqing Gong; Ming-Hsuan Yang; Huisheng Wang; Serge Belongie; Yin Cui
時空間対照的なビデオ表現学習
要約

私たちは、ラベルの付いていないビデオから空間時間的な視覚表現を学習するための自己監督型コントラスティブ・ビデオ・表現学習(CVRL)手法を提案します。当手法では、同じ短いビデオから抽出された2つの拡張クリップが埋め込み空間で近づけられ、異なるビデオからのクリップは遠ざけられるようにコントラスティブ損失を使用して表現を学習します。私たちは、ビデオの自己監督学習において良いデータ拡張とは何かを研究し、空間情報と時間情報の両方が重要であることを発見しました。そこで、空間と時間の手がかりを含むデータ拡張を慎重に設計しました。具体的には、各フレームに対して強い空間拡張を適用しつつ、フレーム間での時間的一貫性を維持するための一貫性のある空間拡張手法を提案しています。また、時間的に離れたクリップに対して過度な不変性を強制しないためにサンプリングベースの時間拡張手法も提案しています。Kinetics-600において、CVRLによって学習された表現上に訓練された線形分類器は3D-ResNet-50 (R3D-50) バックボーンを使用して70.4%のトップ1精度を達成し、同じインフレートされたR3D-50を使用した場合でもImageNet監督事前学習より15.7%優れ、SimCLR非監督事前学習より18.8%優れています。さらに大きなR3D-152 (2倍のフィルター) バックボーンを使用することでCVRLの性能は72.9%まで向上し、非監督および監督型ビデオ表現学習間のギャップを大幅に縮小しています。私たちのコードとモデルはhttps://github.com/tensorflow/models/tree/master/official/ で公開されます。

時空間対照的なビデオ表現学習 | 最新論文 | HyperAI超神経