Command Palette

Search for a command to run...

10 天前

大语言模型的黑盒策略蒸馏

Tianzhu Ye Li Dong Zewen Chi Xun Wu Shaohan Huang Furu Wei

大语言模型的黑盒策略蒸馏

摘要

黑盒蒸馏(Black-box distillation)通过仅利用专有教师模型的文本输出进行学习,无需访问其内部的logits或参数,从而构建学生大型语言模型(LLM)。在本工作中,我们提出生成对抗蒸馏(Generative Adversarial Distillation, GAD),实现了在策略内(on-policy)且黑盒条件下的模型蒸馏。GAD将学生LLM视为生成器,训练一个判别器以区分学生生成的回答与教师模型的回答,从而形成一种极小极大博弈(minimax game)。在此过程中,判别器充当一个与学生模型共同演化的在策略奖励模型,提供稳定且自适应的反馈信号。实验结果表明,GAD在各项指标上均持续优于常用的序列级知识蒸馏方法。特别地,使用GAD训练的Qwen2.5-14B-Instruct(学生模型)在LMSYS-Chat自动评估中表现接近其教师模型GPT-5-Chat。这些结果证明,GAD是一种极具前景且高效的黑盒LLM蒸馏范式。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供