
半教師あり学習(Semi-supervised Learning, SSL)は、ラベルなしデータを活用してモデルの性能を向上させる有効な手法である。典型的なSSL手法であるFixMatchは、ラベル付きデータとラベルなしデータが同一のラベル空間を持つことを仮定している。しかし実際には、ラベル付きデータに存在しないカテゴリ(いわゆるアウトライア)を含むラベルなしデータが存在しうるため、これはSSLアルゴリズムの性能を著しく低下させる要因となる。この問題に対処するため、本研究では新しい「オープンセット半教師あり学習(Open-set Semi-Supervised Learning, OSSL)」アプローチ、OpenMatchを提案する。OSSLの成功には、正常データ(インライア)の表現学習とアウトライアの排除が不可欠である。これに対し、OpenMatchはFixMatchと、一対多(One-vs-All, OVA)分類器に基づく新規性検出(novelty detection)を統合する。OVA分類器は、サンプルがインライアである確信度スコアを出力し、これによりアウトライアを検出するための閾値を提供する。さらに、本研究のもう一つの重要な貢献は、OVA分類器の入力変換に対する滑らかさを強化する「オープンセットソフト一貫性正則化損失(open-set soft-consistency regularization loss)」の導入である。この損失関数により、アウトライア検出性能が大幅に向上する。実験の結果、OpenMatchは3つのデータセットにおいて最先端の性能を達成し、特にCIFAR10において、ラベルなしデータに存在しなかった新たなアウトライアを検出するという課題において、完全教師ありモデルを上回る性能を示した。実装コードは以下のURLから公開されている:https://github.com/VisionLearningGroup/OP_Match。