HyperAIHyperAI

Command Palette

Search for a command to run...

Gewichtsvermittelung verbessert das Knowledge Distillation unter Domänenverschiebung

Valeriy Berezovskiy Nikita Morozov

Zusammenfassung

Wissensdistillation (KD) ist eine leistungsfähige Technik zur Modellkompression, die in praktischen Anwendungen tiefen Lernens weit verbreitet ist. Sie zielt darauf ab, ein kleines Schüler-Netzwerk darauf zu trainieren, ein größeres Lehrer-Netzwerk nachzuahmen. Während allgemein bekannt ist, dass KD die Generalisierungsfähigkeit des Schülers im i.i.d.-Szenario verbessern kann, hat ihre Leistung unter Domänenverschiebung – also die Leistung von Schüler-Netzwerken auf Daten aus Domänen, die während des Trainings nicht gesehen wurden – in der Literatur bisher wenig Aufmerksamkeit gefunden. In diesem Paper machen wir einen Schritt hin zu einer Verbindung der Forschungsfelder Wissensdistillation und Domänenverallgemeinerung. Wir zeigen, dass Gewichtsdurchschnittstechniken, die in der Literatur zur Domänenverallgemeinerung vorgeschlagen wurden, wie beispielsweise SWAD und SMA, auch die Leistung der Wissensdistillation unter Domänenverschiebung verbessern. Darüber hinaus stellen wir eine einfache Gewichtsdurchschnittsstrategie vor, die keine Evaluierung auf Validierungsdaten während des Trainings erfordert, und zeigen, dass sie bei Anwendung auf KD die Leistung von SWAD und SMA erreicht. Wir bezeichnen unseren endgültigen Distillationansatz als Weight-Averaged Knowledge Distillation (WAKD).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp