
要約
多くの機械学習アプリケーションにおいて、データセットへのラベル付与は重労働かつ時間のかかる作業である。コンピュータビジョン分野において、半教師あり学習手法がわずかなラベル数で高い精度を達成できることについては既に研究が進んでいるが、データセット内の画像をラベル付与のためにどのように選択すべきかという点については、ほとんど注目されていない。本論文では、既に確立された自己教師学習(self-supervised learning)、クラスタリング、多様体学習(manifold learning)の技術を組み合わせた新しいアプローチを提案する。このアプローチは、初期段階でラベル付与を行う際に情報量の多い画像サブセットを選択するという課題、すなわち「コールドスタート」または「非教師付き選択的ラベル付与問題(unsupervised selective labelling problem)」に取り組むものである。我々は、CIFAR10、Imagenette、DeepWeeds、EuroSATという複数の公開データセットを用いて本手法の有効性を検証した結果、ランダムサンプリングと比較して、教師ありおよび半教師あり学習戦略の両方において性能が向上することが確認された。また、文献に報告された他の手法と比較して、はるかにシンプルなアプローチでありながら、検討したデータセットにおいて優れた性能を達成した。