Command Palette
Search for a command to run...

摘要
作为人类互动与信息交流的关键媒介,社交网络服务(SNS)为大型语言模型(LLMs)带来了独特的挑战:异构的工作负载、快速演变的规范与俚语,以及多语言、文化多元的语料库所引发的显著分布偏移问题。监督微调(SFT)虽能提升模型的专业性,但常导致“此消彼长”的现象——即在分布内性能提升的同时,分布外鲁棒性下降,尤其对小型模型更为明显。为应对这些挑战,我们提出 RedOne 2.0,一种面向SNS场景的大型语言模型,采用渐进式、以强化学习(RL)优先的后训练范式,实现快速且稳定的适应能力。该流程包含三个阶段:(1)在精心筛选的SNS语料上进行探索性学习,建立初始对齐并识别系统性弱点;(2)针对性微调,针对诊断出的短板选择性地应用SFT,同时混合少量通用数据以缓解遗忘问题;(3)精炼学习阶段,重新引入以SNS为中心的强化学习信号,巩固性能提升,并在不同任务间实现权衡的协调统一。在涵盖三大类任务的多个评估场景中,我们的4B规模模型相较7B规模的次优基线模型,平均性能提升达2.41分。此外,RedOne 2.0在仅需SFT主导方法RedOne所需数据量一半的情况下,便实现了比基础模型平均提升8.74分的性能,充分证明了其在小规模场景下卓越的数据效率与训练稳定性。总体而言,RedOne 2.0为SNS场景下的领域专用大型语言模型建立了一个具有竞争力且成本效益高的基准,实现了能力提升的同时不以牺牲鲁棒性为代价。