
要約
最近の半教師あり学習における進展は、現代の機械学習アルゴリズムの成功に大きな障壁となる問題である大量の人間によるラベル付け訓練データへのアクセスを克服する上で、大きな可能性を示しています。従来の一貫性正則化に基づくアルゴリズムは、未ラベルデータの豊富さを利用して、数々の半教師ありベンチマークで印象的な結果を出し、利用可能なラベル付きデータの一部だけを使用して強力な教師あり基準モデルに近い性能を達成しています。本研究では、長年にわたって成功してきた一貫性正則化に挑戦し、自己監督正則化を未ラベルデータから得られる意味特徴表現を組み合わせるための基礎として導入します。SVHN、CIFAR-10、およびCIFAR-100 ベンチマークデータセットを使用して、自己監督正則化が教師ありおよび半教師あり画像分類において効果的であることを示すために広範な比較実験を行いました。主な結果は以下の通りです:(1) 自己監督正則化を追加したモデルは、未ラベルデータなしで従来の教師あり分類器よりも大幅に性能が向上します;(2) 未ラベルデータと共に使用することで、我々のモデルは多くの場合において以前の一貫性基準モデルを超える競争力のある半教師あり性能を達成します。最後に、我々のモデルは標準的なニューラルネットワーク訓練用パラメータ以外に最適性能を得るために調整が必要な追加のハイパーパラメータを必要とせず、効率的に端から端まで訓練できるという実用的な利点があります。参考コードとデータは https://github.com/vuptran/sesemi で入手可能です。