vor 11 Tagen

Selbstwissens-Distillation mit progressiver Verfeinerung der Ziele

Kyungyul Kim, ByeongMoon Ji, Doyoung Yoon, Sangheum Hwang

Abstract

Die Verallgemeinerungsfähigkeit tiefer neuronaler Netze wurde erheblich durch die Anwendung einer Vielzahl von Regularisierungsmethoden verbessert, beispielsweise durch Einschränkung des Funktionsraums, Einfügen von Zufälligkeit während des Trainings oder Datenvervollständigung. In dieser Arbeit stellen wir eine einfache, aber effektive Regularisierungsmethode vor, die progressive selbstbezogene Wissensvermittlung (progressive self-knowledge distillation, PS-KD) genannt wird. Diese Methode vermittelt schrittweise das eigene Wissen eines Modells, um während des Trainings harte Ziele (d. h. One-Hot-Vektoren) zu weichen. Damit lässt sich PS-KD innerhalb des Rahmens der Wissensvermittlung interpretieren, bei dem ein Schüler sich selbst zum Lehrer entwickelt. Insbesondere werden die Zielwerte adaptiv durch Kombination der Wahrheitswerte mit früheren Vorhersagen des Modells selbst angepasst. Wir zeigen, dass PS-KD eine Wirkung des Hard-Example-Mining erzeugt, indem sie die Gradienten je nach Schwierigkeit der Klassifizierung von Beispielen umskaliert. Die vorgeschlagene Methode ist auf beliebige überwachte Lernaufgaben mit harten Zielen anwendbar und kann problemlos mit bestehenden Regularisierungsmethoden kombiniert werden, um die Generalisierungsfähigkeit weiter zu steigern. Darüber hinaus wird bestätigt, dass PS-KD nicht nur eine höhere Genauigkeit, sondern auch qualitativ hochwertige Vertrauensschätzungen hinsichtlich der Kalibrierung sowie eine verbesserte Ordnungsrangfolge liefert. Umfangreiche experimentelle Ergebnisse auf drei unterschiedlichen Aufgaben – Bildklassifikation, Objektdetektion und maschinelle Übersetzung – zeigen, dass unsere Methode die Leistung der aktuellen State-of-the-Art-Baselines konsistent verbessert. Der Quellcode ist unter https://github.com/lgcnsai/PS-KD-Pytorch verfügbar.