HyperAI

自2025年以来，以Cursor、Gemini CLI、Qwen CLI和GPT-codex为代表的AI代码生成工具迅速崛起，标志着大模型正迈向更智能的自动化开发阶段——即通过调用分析工具实现高效代码生成与辅助编程。在此背景下，上海交通大学本科校友、美国西北大学博士生郁家豪及其团队聚焦于提升大模型在复杂代码生成任务中的表现，尤其关注如何优化离线学习策略以增强模型输出的多样性。目前，测试时扩展（TTS）已成为代码生成领域的主流技术，其核心思想是生成多个候选答案，并通过筛选获得最优解，从而提升最终准确率。与此同时，离线学习因其较低的计算成本和实验灵活性，广泛应用于模型训练。然而，研究发现，传统离线学习在提升模型性能的同时，容易导致生成答案的同质化——多个候补结果高度相似，造成冗余，削弱了TTS的实际增益。针对这一问题，研究团队提出一种创新训练方法：在离线学习的损失函数中引入多样性激励项，引导模型在训练阶段生成更具差异性的输出。该策略有效缓解了因数据固化带来的多样性下降问题。实验结果表明，经过该方法训练的模型在SWE-Bench-Verified榜单中位列第四，在SWE-Bench-Lite榜单中排名第一，显著优于常规离线学习方法。更值得注意的是，该方法在性能上部分弥补了离线学习相较于在线学习在多样性上的天然劣势，为复杂任务（如代码生成、数学竞赛、CTF夺旗赛）提供了除在线学习外的新路径。尤其在创意写作领域，大模型常因“AI味”重而被诟病，表现为句式重复、思维僵化。而通过鼓励多样性，该方法可促使模型生成更多元、更具启发性的文本，从而提升创作质量，助力人类创作者拓展思路。研究过程中，团队面临的一大挑战是离线数据采集的成本问题。最初计划使用Anthropic的Claude Sonnet 4，但仅小规模采集便耗费超500美元，完整实验预计需上万美元，远超预算。转而探索国产大模型后，Kimi-K2、Qwen3-coder-480B与GLM-4.5等模型展现出媲美闭源模型的代码生成能力，且成本极低。尤其GLM-4.5推出1万亿token的限时免费套餐，恰好匹配研究节奏。最终，团队仅以50元人民币完成全部数据采集，且数据质量优异，显著提升了后续微调效果。值得注意的是，用于微调的模型Qwen3-coder-30B同样为国产模型。这一实践反映出当前大模型研究生态的深刻转变：从2023年依赖Llama系列，到2025年国模已全面崛起，成为开源研究的主流选择，且性能与闭源模型差距持续缩小。未来，团队计划深入探索回答多样性与测试时扩展效果之间的量化关系。例如，不同模型参与TTS时，最优数量是多少？模型间性能差异是否影响最终表现？这些问题尚无系统研究，将成为团队下一阶段的重点方向。这一探索不仅将推动模型训练方法的精细化，也为AI在复杂创造性任务中的应用提供坚实支撑。

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

Command Palette

研究人员通过离线学习引入多样性激励，显著提升代码生成与创意写作的AI表现

الروابط ذات الصلة

Command Palette

研究人员通过离线学习引入多样性激励，显著提升代码生成与创意写作的AI表现

الروابط ذات الصلة

Command Palette

研究人员通过离线学习引入多样性激励，显著提升代码生成与创意写作的AI表现

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".