HyperAIHyperAI

Command Palette

Search for a command to run...

离线学习结合多样性激励,有效削弱AI写作“机械感”

上海交通大学本科校友、美国西北大学博士生郁家豪及其团队提出一种新型离线学习方法,有效提升了大模型在代码生成和创意写作等复杂任务中的表现,尤其解决了传统离线学习导致生成结果缺乏多样性的关键问题。 当前,AI代码生成工具如Cursor、Gemini CLI、Qwen CLI等迅速发展,推动大模型向自动化编程方向演进。在这一背景下,测试时拓展(TTS)技术被广泛采用——即生成多个候选答案,再通过筛选提升最终质量。而离线学习因计算成本低、便于实验,成为主流训练方式。但研究发现,离线学习往往使模型生成的答案趋于相似,导致TTS效果受限。 为突破这一瓶颈,研究团队在离线学习的损失函数中引入“多样性激励”项,引导模型在训练阶段生成更具差异性的输出。实验表明,该方法显著提升了模型在测试时拓展中的性能。在开源基准SWE-Bench上,其模型取得SWE-Bench-Verified榜单第四、SWE-Bench-Lite榜单第一的优异成绩,验证了方法的有效性。 更值得关注的是,该方法为离线学习提供了媲美在线学习的多样性潜力,为复杂任务如代码生成、数学竞赛、CTF攻防赛等提供了新路径。尤其在创意写作领域,大模型常因重复句式、套路化表达而被诟病“AI味重”。通过增强生成多样性,该方法有助于打破固化表达,激发更丰富、更自然的创作思路。 研究过程中,团队面临高昂的数据采集成本。最初计划使用Anthropic的Claude Sonnet 4,仅小样本测试就花费超500美元,完整采集预计需上万美元。在转向国产模型后,Kimi-K2、Qwen3-coder-480B和GLM-4.5均展现出接近甚至媲美闭源模型的性能。尤其是GLM-4.5推出1万亿token限时套餐,使团队仅用50元人民币便完成全部数据采集,且数据质量高,显著提升后续微调效果。 微调模型也采用国产的Qwen3-coder-30B,反映出当前开源生态的快速迭代。研究团队感慨,2023年微调研究几乎依赖Llama系列,而到2025年,国产大模型已全面崛起,成为开源领域的主流,与闭源模型差距不断缩小。 未来,团队计划深入研究回答多样性与测试时拓展性能之间的量化关系,例如:多少个不同模型参与拓展效果最佳?模型间性能差异是否影响最终结果?这些问题尚无系统研究,将成为下一步探索方向。

相关链接