11 天前

OpenChat:基于混合质量数据推进开源语言模型发展

Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, Yang Liu
OpenChat:基于混合质量数据推进开源语言模型发展
摘要

近年来,以LLaMA为代表的开源大语言模型不断涌现。最新进展通过引入监督微调(Supervised Fine-Tuning, SFT)和强化学习微调(Reinforcement Learning Fine-Tuning, RLFT),使这些模型更好地对齐人类目标。然而,SFT方法通常将质量参差不齐的训练数据一视同仁,而RLFT方法则依赖高质量的成对比较或排序偏好数据,获取成本高昂。为此,本文提出一种新颖的框架——OpenChat,旨在利用混合质量数据进一步提升开源语言模型的性能。具体而言,我们考虑了一类典型的SFT训练数据:其中包含少量专家标注数据,但主体为大量次优数据,且不附带任何偏好标签。为此,我们提出C-RLFT(Conditioned-RLFT)方法,将不同数据源视为粗粒度的奖励标签,并学习一种类别条件(class-conditioned)的策略,以有效利用不同数据来源所蕴含的质量互补信息。有趣的是,C-RLFT中的最优策略可通过单阶段、无需强化学习的监督学习方式高效求解,具有轻量化优势,且避免了昂贵的人工偏好标注过程。在三个标准基准上的大量实验表明,采用C-RLFT微调的OpenChat-13B模型,在所有13B参数规模的开源语言模型中实现了最高的平均性能。此外,通过AGIEval评估模型的泛化能力,结果表明仅有OpenChat-13B超越了基线模型。最后,我们开展了一系列深入分析,验证了OpenChat框架的有效性与鲁棒性。本文相关代码、数据及模型均已开源,可访问 https://github.com/imoneoi/openchat 和 https://huggingface.co/openchat 获取。

OpenChat:基于混合质量数据推进开源语言模型发展 | 最新论文 | HyperAI超神经