4ヶ月前

画像および動画のソフトコントラスティブ自己教師なし学習における類似度コントラスティブ推定

Julien Denize; Jaonary Rabarisoa; Astrid Orcesi; Romain Hérault
画像および動画のソフトコントラスティブ自己教師なし学習における類似度コントラスティブ推定
要約

コントラスティブ表現学習は、画像と動画に対する効果的な自己監督学習手法であることが証明されています。最も成功したアプローチの多くはノイズコントラスティブ推定(NCE)に基づいており、インスタンスの異なるビューをポジティブとして使用し、それらが対照される他のインスタンス、すなわちネガティブと呼ばれるものをノイズとして扱います。しかし、データセット内のいくつかのインスタンスは同じ分布から抽出され、基礎となる意味情報を共有しています。良いデータ表現には、コントラスティブ学習がすべてのネガティブをノイズとして扱うことで損なわれる可能性のある、インスタンス間の関係や意味的類似性および非類似性が含まれるべきです。この問題を回避するために、我々はインスタンス間の意味的類似性を使用した新しいコントラスティブ学習の公式化であるシミラリティコントラスティブ推定(SCE)を提案します。我々の学習目標はソフトコントラスティブなもので、ポジティブを近づけつつ、学習された類似性に基づいてネガティブインスタンスを押し戻したり引き寄せたりする連続分布を推定します。我々は実験的に画像と動画の表現学習において当方針の有効性を検証しました。ImageNet線形評価プロトコルにおいてSCEが少ない事前学習エポックで最先端技術と競合する性能を示すことを示し、またそれが複数の下流画像タスクに一般化することも示しました。さらに、SCEが動画表現の事前学習において最先端結果に達し、学習された表現が動画下流タスクにも一般化することも示しました。