
要約
深層学習は多くのコンピュータビジョンの応用分野で最先端を推進しています。しかし、大規模な注釈付きデータリポジトリに依存しており、現実世界のデータの制約のない性質を捉える問題はまだ解決されていません。半教師あり学習(Semi-Supervised Learning, SSL)は、大量の無注釈データを注釈付き訓練データと組み合わせることで、注釈コストを削減します。従来のSSLアプローチでは、無注釈データが注釈付きデータと同じ分布から得られるという前提が置かれています。最近、より現実的なSSL問題として、未知クラスからのサンプルが含まれる可能性のある無注釈データを取り扱う「オープンワールドSSL」が導入されました。本論文では、オープンワールド設定におけるSSLを解決するための新しい疑似ラベルベースアプローチを提案します。当方法の中心には、サンプルの不確実性を利用し、クラス分布に関する事前知識を取り入れて、既知および未知クラスに属する無注釈データに対して信頼性のあるクラス分布に配慮した疑似ラベルを生成する手法があります。我々の広範な実験結果は、CIFAR-100(約17%)、ImageNet-100(約5%)、Tiny ImageNet(約9%)など7つの異なるベンチマークデータセットにおいて、既存の最先端手法を大幅に上回る有効性を示しています。また、当アプローチが新規クラス発見タスクにおいても柔軟に対応できることや、不均衡データへの安定性についても示し、未知クラス数の推定技術との組み合わせについて補足説明します。