2ヶ月前
Pretext-Contrastive Learning: 自教師監督ビデオ表現学習における良 практиスの追求
Li Tao; Xueting Wang; Toshihiko Yamasaki

要約
最近、自己監督型ビデオ特徴学習において、前処理タスクベースの手法が次々と提案されています。一方で、コントラスティブ学習手法も良好な性能を示しています。通常、新しい手法は「より良い」時系列情報を捉えられると主張され、それによって以前の手法を上回ることが期待されます。しかし、それらの間には設定の違いが存在し、どの手法が優れているかを結論付けるのは困難です。これらの手法が可能な限り性能限界に近づいている場合に比較を行うと、その結果はより説得力を持つでしょう。本論文では、一つの前処理タスクベースラインから出発し、コントラスティブ学習、データ前処理、データ拡張との組み合わせによりどこまで進めるかを探ります。広範な実験から適切な設定を見出し、その設定により基準モデルに対して大幅な改善が達成できることを示しました。これは共同最適化フレームワークが前処理タスクとコントラスティブ学習双方を向上させることを示唆しています。私たちはこの共同最適化フレームワークをPretext-Contrastive Learning (PCL)と呼びます。他の2つの前処理タスクベースラインを使用してPCLの有効性を検証しました。そして同じ訓練方法で現在の最先端手法よりも容易に優れた性能を達成できることから、私たちの提案の有効性と汎用性が示されました。PCLを標準的な訓練戦略として扱い、自己監督型ビデオ特徴学習における多くの他の研究に適用することが容易であると言えます。