HyperAIHyperAI

Command Palette

Search for a command to run...

vor 10 Tagen

Black-Box On-Policy Distillation von Large Language Models

Tianzhu Ye Li Dong Zewen Chi Xun Wu Shaohan Huang Furu Wei

Black-Box On-Policy Distillation von Large Language Models

Abstract

Black-box-Distillation ermöglicht die Erstellung von Schüler-Großsprachmodellen (LLMs) durch Lernen ausschließlich aus den Textausgaben eines proprietären Lehrermodells, ohne Zugriff auf dessen interne Logits oder Parameter. In dieser Arbeit führen wir Generative Adversarielle Distillation (GAD) ein, die sowohl on-policy- als auch black-box-Distillation ermöglicht. GAD modelliert das Schüler-LLM als Generator und trainiert einen Diskriminators, um dessen Antworten von denen des Lehrer-LLMs zu unterscheiden, wodurch ein Minimax-Spiel entsteht. Der Diskriminator fungiert dabei als on-policy Belohnungsmodell, das sich gemeinsam mit dem Schüler entwickelt und stabile, adaptive Rückmeldungen liefert. Experimentelle Ergebnisse zeigen, dass GAD die häufig verwendete sequenzweisen Wissensdistillation konsistent übertrifft. Insbesondere erreicht das Qwen2.5-14B-Instruct-Modell (Schüler), das mit GAD trainiert wurde, eine vergleichbare Leistung wie sein Lehrermodell GPT-5-Chat bei der automatischen Bewertung über das LMSYS-Chat-Dataset. Die Ergebnisse etablieren GAD als vielversprechendes und effektives Paradigma für die black-box-basierte Distillation von Großsprachmodellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Black-Box On-Policy Distillation von Large Language Models | Forschungsarbeiten | HyperAI