HyperAI超神经

上海交通大学本科校友、美国西北大学博士生郁家豪及其团队提出一种新型离线学习方法，有效提升了大模型在代码生成和创意写作等复杂任务中的表现，尤其解决了传统离线学习导致生成结果缺乏多样性的关键问题。当前，AI代码生成工具如Cursor、Gemini CLI、Qwen CLI等迅速发展，推动大模型向自动化编程方向演进。在这一背景下，测试时拓展（TTS）技术被广泛采用——即生成多个候选答案，再通过筛选提升最终质量。而离线学习因计算成本低、便于实验，成为主流训练方式。但研究发现，离线学习往往使模型生成的答案趋于相似，导致TTS效果受限。为突破这一瓶颈，研究团队在离线学习的损失函数中引入“多样性激励”项，引导模型在训练阶段生成更具差异性的输出。实验表明，该方法显著提升了模型在测试时拓展中的性能。在开源基准SWE-Bench上，其模型取得SWE-Bench-Verified榜单第四、SWE-Bench-Lite榜单第一的优异成绩，验证了方法的有效性。更值得关注的是，该方法为离线学习提供了媲美在线学习的多样性潜力，为复杂任务如代码生成、数学竞赛、CTF攻防赛等提供了新路径。尤其在创意写作领域，大模型常因重复句式、套路化表达而被诟病“AI味重”。通过增强生成多样性，该方法有助于打破固化表达，激发更丰富、更自然的创作思路。研究过程中，团队面临高昂的数据采集成本。最初计划使用Anthropic的Claude Sonnet 4，仅小样本测试就花费超500美元，完整采集预计需上万美元。在转向国产模型后，Kimi-K2、Qwen3-coder-480B和GLM-4.5均展现出接近甚至媲美闭源模型的性能。尤其是GLM-4.5推出1万亿token限时套餐，使团队仅用50元人民币便完成全部数据采集，且数据质量高，显著提升后续微调效果。微调模型也采用国产的Qwen3-coder-30B，反映出当前开源生态的快速迭代。研究团队感慨，2023年微调研究几乎依赖Llama系列，而到2025年，国产大模型已全面崛起，成为开源领域的主流，与闭源模型差距不断缩小。未来，团队计划深入研究回答多样性与测试时拓展性能之间的量化关系，例如：多少个不同模型参与拓展效果最佳？模型间性能差异是否影响最终结果？这些问题尚无系统研究，将成为下一步探索方向。

相关链接

相关链接

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

Command Palette

离线学习结合多样性激励，有效削弱AI写作“机械感”

相关链接

Command Palette

离线学习结合多样性激励，有效削弱AI写作“机械感”

相关链接

Command Palette

离线学习结合多样性激励，有效削弱AI写作“机械感”

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间