Gewichtsvermittelung verbessert das Knowledge Distillation unter Domänenverschiebung

Wissensdistillation (KD) ist eine leistungsfähige Technik zur Modellkompression, die in praktischen Anwendungen tiefen Lernens weit verbreitet ist. Sie zielt darauf ab, ein kleines Schüler-Netzwerk darauf zu trainieren, ein größeres Lehrer-Netzwerk nachzuahmen. Während allgemein bekannt ist, dass KD die Generalisierungsfähigkeit des Schülers im i.i.d.-Szenario verbessern kann, hat ihre Leistung unter Domänenverschiebung – also die Leistung von Schüler-Netzwerken auf Daten aus Domänen, die während des Trainings nicht gesehen wurden – in der Literatur bisher wenig Aufmerksamkeit gefunden. In diesem Paper machen wir einen Schritt hin zu einer Verbindung der Forschungsfelder Wissensdistillation und Domänenverallgemeinerung. Wir zeigen, dass Gewichtsdurchschnittstechniken, die in der Literatur zur Domänenverallgemeinerung vorgeschlagen wurden, wie beispielsweise SWAD und SMA, auch die Leistung der Wissensdistillation unter Domänenverschiebung verbessern. Darüber hinaus stellen wir eine einfache Gewichtsdurchschnittsstrategie vor, die keine Evaluierung auf Validierungsdaten während des Trainings erfordert, und zeigen, dass sie bei Anwendung auf KD die Leistung von SWAD und SMA erreicht. Wir bezeichnen unseren endgültigen Distillationansatz als Weight-Averaged Knowledge Distillation (WAKD).