HyperAI超神经

摘要

我们的目标是生成一个与用户意图对齐的小型语言模型。先前的研究表明，对大型模型应用蒸馏监督微调（dSFT）可以显著提高任务准确性；然而，这些模型并未对齐，即它们不能很好地响应自然提示。为了蒸馏这一特性，我们尝试使用来自人工智能反馈（AIF）的偏好数据。从由教师模型排名的输出数据集开始，我们应用了蒸馏直接偏好优化（dDPO），以学习一个具有显著改进意图对齐的聊天模型。该方法仅需几小时的训练时间，在微调过程中无需任何额外采样。最终结果，Zephyr-7B，在70亿参数模型的聊天基准测试中达到了最先进的水平，并且不需要人工标注。特别是，MT-Bench的结果显示，Zephyr-7B超越了Llama2-Chat-70B，这是目前最佳的开放访问基于强化学习人类反馈（RLHF）的模型。系统的代码、模型、数据和教程可在https://github.com/huggingface/alignment-handbook 获取。

摘要

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib

摘要

用 AI 构建 AI

HyperAI Newsletters

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib

摘要

用 AI 构建 AI

HyperAI Newsletters

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Zephyr：直接蒸馏语言模型对齐

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Zephyr：直接蒸馏语言模型对齐

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Zephyr：直接蒸馏语言模型对齐

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib

Lewis Tunstall Edward Beeching Nathan Lambert Nazneen Rajani Kashif Rasul Younes Belkada Shengyi Huang Leandro von Werra Clémentine Fourrier Nathan Habib