MiniLLM: Knowledge Distillation von Large Language Models

Knowledge Distillation (KD) ist eine vielversprechende Technik zur Reduzierung des hohen Rechenaufwands großer Sprachmodelle (LLMs). Bisherige KD-Methoden werden jedoch hauptsächlich auf white-box-Klassifikationsmodelle angewendet oder dienen dazu, kleine Modelle zu trainieren, um die APIs von black-box-Modellen wie ChatGPT nachzuahmen. Die effektive Übertragung des Wissens von white-box-LLMs auf kleinere Modelle bleibt jedoch weitgehend unerforscht – eine Herausforderung, die mit dem Aufstieg offener LLMs an Bedeutung gewinnt. In dieser Arbeit stellen wir einen KD-Ansatz vor, der LLMs in kleinere Sprachmodelle komprimiert. Zunächst ersetzen wir die herkömmliche Forward-Kullback-Leibler-Divergenz (KLD) im Standard-KD-Ansatz durch die Reverse-KLD, die besser für die KD bei generativen Sprachmodellen geeignet ist und verhindert, dass das Schülermodell die Regionen mit geringer Wahrscheinlichkeit in der Verteilung des Lehrers überbewertet. Anschließend leiten wir eine effektive Optimierungsstrategie zur Lernung dieses Ziels her. Die entwickelten Schülermodelle werden als MiniLLM bezeichnet. Umfangreiche Experimente im Kontext von Anweisungsfolgeaufgaben zeigen, dass MiniLLM präzisere Antworten mit insgesamt höherer Qualität, geringerer Expositionsverzerrung, besserer Kalibrierung und überlegener Leistung bei der Generierung langer Texte im Vergleich zu Baseline-Modellen erzeugt. Unser Ansatz ist skalierbar für verschiedene Modellfamilien mit 120 M bis 13 B Parametern. Der Quellcode, die Daten und die Modell-Checkpoints sind unter https://github.com/microsoft/LMOps/tree/main/minillm verfügbar.