Diversitätsförderung in der Offline-Lernphase verbessert KI-Code- und Kreativschreibleistung
自2025年以来,以Cursor、Gemini CLI、Qwen CLI和GPT-codex为代表的基于大模型的自动化代码生成工具兴起,标志着AI在编程辅助领域的重大突破。上海交通大学本科校友、美国西北大学博士生郁家豪及其团队聚焦于提升大模型在复杂代码生成任务中的表现,尤其关注离线学习(offline learning)场景下模型多样性不足的问题。尽管离线学习因计算成本低、实验效率高而被广泛采用,但其往往导致模型生成的候选答案趋同,削弱了“测试时拓展”(Testing Time Scaling, TTS)带来的性能增益。为解决这一瓶颈,研究团队提出一种新型训练范式:在离线学习的损失函数中引入多样性激励项,引导模型在训练阶段生成更具差异性的候选输出。该方法显著提升了后续TTS阶段的准确率,最终在SWE-Bench-Verified和SWE-Bench-Lite两大开源榜单上分别取得第四和第一的成绩,验证了其有效性。 值得注意的是,该方法为离线学习提供了超越传统路径的新思路——不再被动接受多样性损失,而是主动建模多样性。与依赖在线学习获取实时反馈的方案相比,该方法在保持低资源消耗的同时,有效弥补了离线学习的固有缺陷,尤其适用于需要多轮推理与工具调用的复杂任务,如代码生成、数学竞赛解题及CTF夺旗赛等。此外,该技术在创意写作领域也展现出潜力:通过鼓励模型输出多样化表达,可有效缓解当前大模型“AI味”过重、句式重复的问题,提升生成内容的原创性与启发性,助力人类创作者拓展思路。 研究过程中的关键转折点在于数据采集成本的突破。团队最初计划使用Anthropic的Claude Sonnet 4进行离线数据生成,初步测试即产生超500美元开销,完整采集预估需上万美元,远超预算。在此背景下,国产大模型的崛起成为突破口。Kimi-K2、Qwen3-coder-480B与GLM-4.5等国产模型展现出媲美闭源模型的代码生成能力,且成本极低。尤其是GLM-4.5推出后提供的1万亿token限时免费套餐,精准匹配研究节奏。团队最终以50元人民币完成全部数据采集,且数据质量优异,显著提升了微调模型的性能。微调所用模型Qwen3-coder-30B亦为国产模型,反映出2025年开源生态已由Llama主导转向以Qwen为代表的国产模型全面接棒,闭源与开源差距持续缩小。 团队未来将深入探索回答多样性与TTS性能之间的量化关系,包括最优模型数量、模型性能差异对最终效果的影响等尚未被系统研究的议题。这些工作有望为复杂推理任务的模型部署提供更科学的指导。
