
要約
最近、ラベル付きデータが不足している場合の深層学習モデルの改善において、半教師あり学習は大きな可能性を示しています。最近のアプローチでは、大量のラベルなしデータに対する一貫性訓練を使用して、モデルの予測が入力ノイズに対して不変であることを制約する方法が一般的です。本研究では、効果的にラベルなしサンプルにノイズを加える新たな視点を提示し、特に高度なデータ拡張手法によって生成されるノイズの品質が半教師あり学習において重要な役割を果たすことを主張します。単純なノイズ処理をRandAugmentやバック翻訳などの高度なデータ拡張手法に置き換えることで、同一の一貫性訓練フレームワークのもとで6つの言語タスクと3つの視覚タスクにおいて大幅な改善をもたらしました。IMDbテキスト分類データセットでは、わずか20件のラベル付きサンプルを使用して、当方法は4.20という誤り率を達成し、25,000件のラベル付きサンプルで訓練された最先端モデルを上回りました。標準的な半教師あり学習ベンチマークであるCIFAR-10においても、当方法はこれまでのすべてのアプローチを凌駕し、わずか250件のサンプルで5.43という誤り率を達成しました。また、転移学習との組み合わせでも良好な結果を得ており、例えばBERTから微調整を行う場合やImageNetのような大規模データセットにおいても改善が見られました。10%のラベル付きデータしかない場合でも、あるいは130万件もの追加ラベルなしサンプルがある完全なラベル付きセットを使用した場合でも同様です。コードはhttps://github.com/google-research/uda で公開されています。