クラス意識型コントラスト型半教師付き学習

自己ラベルに基づく半教師付き学習(SSL)は、原始データの利用効率において顕著な成果を上げている。しかし、自己生成された人工ラベルに含まれるノイズの影響により、訓練プロセスにおいて確認バイアス(confirmation bias)が生じるという課題がある。さらに、実世界の応用においては分布外(out-of-distribution)データが広範に存在するため、モデルの判断精度もさらに低下しやすくなる。この問題に対処するため、本研究では、クラスに配慮した対照的半教師付き学習(Class-aware Contrastive Semi-Supervised Learning; CCSSL)と呼ばれる汎用的な手法を提案する。この手法は、既存のSSLフレームワークに簡単に統合可能な補助モジュールとして機能し、自己ラベルの品質向上と実世界環境におけるモデルのロバスト性の強化を実現する。従来のアプローチが実世界データを一括して扱うのに対し、本手法は、クラスごとのクラスタリングにより信頼性の高い分布内(in-distribution)データを下流タスクに融合させ、画像単位の対照学習によりノイズを含む分布外データを効果的に処理することで、より優れた一般化性能を達成する。さらに、ターゲット再重み付け(target re-weighting)を導入することで、クリーンラベルの学習を強調しつつ、ノイズラベルの学習を抑制する効果が得られる。本手法は構成が単純であるにもかかわらず、標準データセットであるCIFAR100およびSTL10において、最先端のSSL手法を大きく上回る性能を示した。また、実世界データセットであるSemi-iNat 2021においては、FixMatchに対して9.80%、CoMatchに対して3.18%の性能向上を達成した。コードはGitHubにて公開されている:https://github.com/TencentYoutuResearch/Classification-SemiCLS。