Command Palette

Search for a command to run...

2 个月前

激发小规模语言模型的创意写作:基于LLM的评判与多智能体精炼奖励

Xiaolong Wei Bo Lu Xingyu Zhang Zhejun Zhao Dongdong Shen Long Xia Dawei Yin

激发小规模语言模型的创意写作:基于LLM的评判与多智能体精炼奖励

摘要

大型语言模型(LLMs)在创造性写作方面展现出卓越的能力,但其巨大的计算开销限制了其广泛应用。提升小型语言模型(SLMs)提供了一条有前景的替代路径,然而当前的方法如监督微调(SFT)在生成新颖性方面表现不足,而基于人类反馈的强化学习(RLHF)则成本高昂。本文在基于人工智能反馈的强化学习(RLAIF)框架下,探索了两种不同的AI驱动奖励策略,以激发一个70亿参数规模的SLM在生成中文问候语任务中的创造性写作能力。第一种策略采用了一个基于高质量偏好数据训练的评分模型(RM),这些数据由一种专为创造性任务设计的新颖多智能体拒绝采样框架收集整理。第二种策略更为创新,采用基于原则引导的“大模型作为裁判”(LLM-as-a-Judge)机制,其奖励函数通过结合反思机制的对抗性训练方案进行优化,从而直接提供奖励信号。全面的实验结果表明,尽管两种方法均显著优于基线模型的创造性输出,但基于原则引导的LLM-as-a-Judge在生成质量上表现尤为突出。此外,该方法在训练效率方面具有显著优势,并大幅降低了对人工标注数据的依赖,为实现更具创造性的SLM提供了一条更可扩展、更高效的路径。我们的自动化评估方法也展现出与人类判断高度一致的性能。相关代码与数据已公开发布于本文提供的链接地址。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
激发小规模语言模型的创意写作:基于LLM的评判与多智能体精炼奖励 | 论文 | HyperAI超神经