HyperAIHyperAI

Command Palette

Search for a command to run...

MiniLLM: Knowledge Distillation von Large Language Models

Yuxian Gu Li Dong Furu Wei Minlie Huang

Zusammenfassung

Knowledge Distillation (KD) ist eine vielversprechende Technik zur Reduzierung des hohen Rechenaufwands großer Sprachmodelle (LLMs). Bisherige KD-Methoden werden jedoch hauptsächlich auf white-box-Klassifikationsmodelle angewendet oder dienen dazu, kleine Modelle zu trainieren, um die APIs von black-box-Modellen wie ChatGPT nachzuahmen. Die effektive Übertragung des Wissens von white-box-LLMs auf kleinere Modelle bleibt jedoch weitgehend unerforscht – eine Herausforderung, die mit dem Aufstieg offener LLMs an Bedeutung gewinnt. In dieser Arbeit stellen wir einen KD-Ansatz vor, der LLMs in kleinere Sprachmodelle komprimiert. Zunächst ersetzen wir die herkömmliche Forward-Kullback-Leibler-Divergenz (KLD) im Standard-KD-Ansatz durch die Reverse-KLD, die besser für die KD bei generativen Sprachmodellen geeignet ist und verhindert, dass das Schülermodell die Regionen mit geringer Wahrscheinlichkeit in der Verteilung des Lehrers überbewertet. Anschließend leiten wir eine effektive Optimierungsstrategie zur Lernung dieses Ziels her. Die entwickelten Schülermodelle werden als MiniLLM bezeichnet. Umfangreiche Experimente im Kontext von Anweisungsfolgeaufgaben zeigen, dass MiniLLM präzisere Antworten mit insgesamt höherer Qualität, geringerer Expositionsverzerrung, besserer Kalibrierung und überlegener Leistung bei der Generierung langer Texte im Vergleich zu Baseline-Modellen erzeugt. Unser Ansatz ist skalierbar für verschiedene Modellfamilien mit 120 M bis 13 B Parametern. Der Quellcode, die Daten und die Modell-Checkpoints sind unter https://github.com/microsoft/LMOps/tree/main/minillm verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MiniLLM: Knowledge Distillation von Large Language Models | Paper | HyperAI