2ヶ月前
未ラベルデータの説明は多数存在する:なぜ平均化すべきか
Ben Athiwaratkun; Marc Finzi; Pavel Izmailov; Andrew Gordon Wilson

要約
現在、半教師あり学習の最も成功しているアプローチは一貫性正則化に基づいています。これは、モデルが入力とパラメータの小さな摂動に対して堅牢であるように訓練する手法です。一貫性正則化を理解するために、損失の幾何学的特性が訓練手順とどのように相互作用するかを概念的に探求します。一貫性損失は教師ありのみの訓練よりも大幅に汎化性能を向上させますが、SGD(確率的勾配降下法)は一貫性損失で収束することが難しく、テストデータでの予測結果が大きく変化するような大きなステップを続けます。これらの観察結果から、最近提案されたStochastic Weight Averaging (SWA) を使用して一貫性ベースの方法を訓練することを提案します。SWA は SGD の軌跡に沿って重みを平均化し、学習率スケジュールを修正することで実現されます。さらに、収束を加速するために fast-SWA を提案します。これは各サイクル内で複数の点を平均化する手法であり、循環型学習率スケジュールを使用しています。重み平均化により、CIFAR-10 および CIFAR-100 において多くの異なる量の教師あり訓練データで最良の既知の半教師あり学習結果を達成しました。例えば、4000個のラベルしか使用せずとも CIFAR-10 で 5.0% の誤差率を達成しており、文献上の従来の最良結果である 6.3% を上回っています。