vor 2 Monaten

Strengere Lehrer sind bessere Vorbilder: Gewichtete konsistente Ziele verbessern die Ergebnisse des semisupervisierten tiefen Lernens

Antti Tarvainen; Harri Valpola

Abstract

Das kürzlich vorgeschlagene Temporal Ensembling hat in mehreren Benchmarks für semisupervises Lernen erstklassige Ergebnisse erzielt. Es behält einen exponentiellen gleitenden Durchschnitt der Label-Vorhersagen für jedes Trainingsbeispiel und bestraft Vorhersagen, die mit diesem Ziel inkonsistent sind. Allerdings wird Temporal Ensembling unhandlich, wenn große Datensätze gelernt werden, da die Ziele nur einmal pro Epoche angepasst werden. Um dieses Problem zu überwinden, schlagen wir Mean Teacher vor, eine Methode, die Modellgewichte anstatt Label-Vorhersagen durchschnittt. Als zusätzlicher Vorteil verbessert Mean Teacher die Testgenauigkeit und ermöglicht das Training mit weniger Labels als Temporal Ensembling. Ohne die Netzarchitektur zu ändern, erreicht Mean Teacher bei SVHN mit 250 Labels einen Fehlerquoten von 4,35 %, was Temporal Ensembling bei 1000 Labels übertrifft. Wir zeigen auch, dass eine gute Netzarchitektur für die Leistung entscheidend ist. Durch die Kombination von Mean Teacher und Residual Networks verbessern wir den Stand der Technik bei CIFAR-10 mit 4000 Labels von 10,55 % auf 6,28 % und bei ImageNet 2012 mit 10 % der Labels von 35,24 % auf 9,11 %.