
要約
データ拡張やハイパーパラメータの調整、その他のエンジニアリング設計に頼らず、SOTA(State-of-the-Art)の自己教師あり学習(SSL: Self-Supervised Learning)手法に近い性能を達成する、最小限かつ解釈可能な非監督学習手法について説明します。当手法はスパース多様体変換を活用しており、スパースコーディング、多様体学習、および遅延特徴分析を統一しています。1層の確定的なスパース多様体変換を使用することで、MNISTでは99.3%のKNNトップ1精度、CIFAR-10では81.1%のKNNトップ1精度、CIFAR-100では53.2%のKNNトップ1精度を達成できます。単純なグレースケール拡張を使用すると、モデルはCIFAR-10で83.2%のKNNトップ1精度、CIFAR-100で57%のKNNトップ1精度を得られます。これらの結果は、「白箱」的手法とSOTA手法との間のギャップを大幅に縮めています。さらに、非監督表現変換がどのように形成されるかを説明するための可視化も提供しています。提案された手法は潜在埋め込み自己教師あり方法と密接に関連しており、VICRegの最も単純な形態として扱うことができます。当社の単純な構築モデルとSOTA手法との間にまだ小さな性能差がありますが、証拠は原理に基づいた「白箱」的手法による非監督学習への有望な方向性であることを示唆しています。