
要約
我々はTWIST(大規模無ラベルデータセットをエンドツーエンドで分類する自己監督表現学習手法)を提案します。この手法は、理論的に説明可能であり、単純な構造を持っています。TWISTでは、2つの拡張画像の双子のクラス分布を生成するために、softmax操作で終端されるシアムネットワークを使用します。教師なしの状態で、異なる拡張のクラス分布の一貫性を確保します。しかし、単に拡張間の乖離を最小化すると、すべての画像に対して同じクラス確率分布を出力するという収束解が発生します。この場合、入力画像に関する情報が失われてしまいます。この問題を解決するために、入力とクラス予測間の相互情報量を最大化することを提案します。具体的には、各サンプルに対する分布のエントロピーを最小化して、各サンプルのクラス予測を断定的にし、平均分布のエントロピーを最大化して、異なるサンプル間での予測結果の多様性を保ちます。これにより、TWISTは特定の設計(非対称ネットワーク、ストップグラディエント操作、またはモーメンタムエンコーダなど)なしで自然に収束解を避けることができます。その結果、TWISTは幅広いタスクにおいて最先端手法を超える性能を示しています。特に半教師あり学習において驚くべき結果が得られており、ResNet-50を使用した1%のImageNetラベルで61.2%のトップ1精度を達成し、従来の最良結果よりも絶対値で6.2%向上しています。コードと事前学習済みモデルは以下のURLから入手できます: https://github.com/bytedance/TWIST