
要約
基礎的なビジョン言語モデルは、事前学習された表現を多様な下流タスクに驚異的なゼロショット転移性をもたらしました。しかし、新しいタスクを解決するためには、データに現れる視覚的カテゴリを定義するために依然として人間のガイダンスが必要です。本研究では、異なる基盤モデルの表現空間で最大マージン分類器を誘導するデータセットのラベリングを探すことで、完全非監督的な転移が出現することを示します。私たちはTURTLE(Test Unsupervised Representation Transfer Learning Efficiency)と呼ばれる完全非監督的手法を提案し、このガイド原則を効果的に活用して、下流データセットの潜在的なラベリングを一切の教師なしで発見し、タスク固有の表現学習を行わずに達成します。TURTLEは26の多様なベンチマークデータセットで評価され、新たな最先端の非監督性能を達成することが示されました。さらに、TURTLEは完全非監督であるにもかかわらず、広範なデータセットにおいてゼロショット転移ベースラインを超える性能を発揮します。特に、同じ表現空間を使用することで、26のデータセットにおけるCLIP(Contrastive Language–Image Pre-training)ゼロショットの平均性能と同等の結果を得ています。これは幅広いアーキテクチャとモデルサイズに対応しています。2つの基盤モデルの表現空間を使用して潜在的なラベリングを探ることにより、TURTLEはゼロショット転移と非監督プロンプトチューニングベースラインを超え、非監督転移の驚くべき力と効果性を示しています。