
要約
ラベルの付いていないデータセットとアノテーション予算が与えられた場合、部分的にラベリングされたデータセット上で半教師あり学習(Semi-Supervised Learning, SSL)が最も効果的になるように、固定数のインスタンスを選択的にラベリングする方法を研究しています。通常のSSLでは、ラベリング済みデータから残りのラベルなしデータへラベルを伝播させることが重視される一方で、私たちは適切なデータを選択することにも焦点を当てています。このインスタンス選択タスクは非常に困難であり、ラベリング済みデータがないため、学習の目的が不明確です。直感的には、下流タスクに関わらず、ラベリング対象となるインスタンスは代表的かつ多様である必要があります:前者はラベル伝播を促進し、後者は全体的なデータセットのカバーを確保します。私たちはこのアイデアをキャプチャするために、事前学習された特徴空間内でのクラスタープロトタイプ選択や、ラベルなしで特徴最適化を行うクラスタープロトタイプ選択を行います。私たちの無監督選択的ラベリングは、既存のアクティブラーニング手法よりも8倍から25倍高いラベル効率でSSL手法を改善します。例えば、CIFAR-10(ImageNet-1K)において0.08%(0.2%)のラベリング済みデータを使用することで、FixMatchの精度を10%(14%)向上させました。これは特に低アノテーション予算下で、どのようなデータにラベルを付けるかを選択するための小さな計算コストが大幅な利点をもたらすことを示しています。私たちの研究は実用的かつ効率的なSSLに対する新しい基準を設定しています。