
要約
最近提案されたTemporal Ensemblingは、いくつかの半教師あり学習のベンチマークで最先端の結果を達成しています。この手法は各訓練サンプルに対するラベル予測の指数移動平均を維持し、そのターゲットと一貫性がない予測に対して罰則を与えます。しかし、ターゲットがエポックごとに一度しか変更されないため、大規模データセットの学習ではTemporal Ensemblingが扱いづらくなります。この問題を克服するために、私たちはモデルの重みを平均化する方法であるMean Teacherを提案します。追加的な利点として、Mean Teacherはテスト精度を向上させ、Temporal Ensemblingよりも少ないラベルで学習を可能にします。ネットワークアーキテクチャを変更せずに、SVHNデータセットにおいて250ラベルを使用した場合、Mean Teacherは4.35%の誤認識率を達成し、1000ラベルを使用して訓練されたTemporal Ensemblingを上回ります。また、良いネットワークアーキテクチャが性能にとって重要であることを示しています。Mean TeacherとResidual Networks(残差ネットワーク)を組み合わせることで、CIFAR-10データセットにおいて4000ラベルを使用した場合の最良記録を10.55%から6.28%に改善し、ImageNet 2012データセットにおいてラベル数の10%を使用した場合の最良記録を35.24%から9.11%に改善しました。