Wissensdestillation
Wissensdestillation ist eine Technik des maschinellen Lernens, die darauf abzielt, die Erkenntnisse eines großen vortrainierten Modells (des „Lehrermodells“) auf ein kleineres „Schülermodell“ zu übertragen. Es wird als eine Form der Modellkomprimierung und Wissensübertragung im Deep Learning verwendet und eignet sich besonders für große tiefe neuronale Netzwerke.
Das Ziel der Wissensdestillation besteht darin, ein kompakteres Modell zu trainieren, um größere, komplexere Modelle zu simulieren. Während das Ziel des traditionellen Deep Learning darin besteht, ein künstliches neuronales Netzwerk so zu trainieren, dass seine Vorhersagen näher an den im Trainingsdatensatz bereitgestellten Ausgabebeispielen liegen, besteht das Hauptziel der Wissensdestillation darin, das Schülernetzwerk so zu trainieren, dass es den Vorhersagen des Lehrernetzwerks entspricht.
Wissensdestillation (KD) wird am häufigsten für große tiefe neuronale Netzwerke mit vielen Schichten und lernbaren Parametern verwendet. Dieser Prozess ist insbesondere für die neu entstehenden groß angelegten generativen KI-Modelle mit Milliarden von Parametern relevant.
Das Konzept entstand in einem Artikel aus dem Jahr 2006 mit dem Titel Papier „Modellkomprimierung“. Caruana et al. verwendete ein damals hochmodernes Klassifizierungsmodell (ein großes Ensemble-Modell, das aus Hunderten von Basisklassifikatoren besteht), um einen großen Datensatz zu beschriften, und trainierte dann durch traditionelles überwachtes Lernen ein einzelnes neuronales Netzwerk auf dem neu beschrifteten Datensatz.
Techniken zur Wissensdestillation wurden erfolgreich in verschiedenen Bereichen eingesetzt, darunter der Verarbeitung natürlicher Sprache (NLP), der Spracherkennung, der Bilderkennung und der Objekterkennung. In den letzten Jahren ist die Forschung zur Wissensdestillation insbesondere für Large Language Models (LLMs) von Bedeutung. Für LLM ist die Wissensdestillation zu einem effektiven Mittel geworden, um erweiterte Funktionen von führenden proprietären Modellen auf kleinere, zugänglichere Open-Source-Modelle zu übertragen.