HyperAI超神经

研究人员开发了一种新方法，使大型语言模型（LLM）能够更自动、高效地生成符合特定语言规则且无错误的文本，这对于提高程序员的工作效率尤其有用。现有的确保代码有效性和正确性的方法要么会扭曲模型的原有意图，要么因为过于耗时而不适用于复杂任务。MIT的研究团队与来自其他机构的合作者共同研发了一种架构，通过在早期阶段就引导LLM向最有潜力的输出努力，而不是完整生成后再检查，从而使小型LLM在多个实测场景中表现超越了大型LLM。这一架构基于一种名为序贯蒙特卡洛的技术，允许LLM在并行处理过程中产出多个候选答案，每个答案的生成都有一个权重，代表其结构和语义正确的可能性。通过不断地动态分配计算资源，并丢弃那些没有前途的答案，这种方法确保了最终产生的代码不仅符合语法规范，还保持了用户的初衷。这意味着在生成的过程中就像有人不断监督模型的工作一样，确保它始终朝着正确的方向前进，同时不偏离用户最初的需求。研究团队对该架构进行了多方面测试，包括生成Python代码、SQL查询、分子结构和机器人动作计划等应用场景。测试结果显示，该方法在准确性上表现更为出色，同时所需的计算资源也有所减少。特别是在Python代码生成方面，一个开源的小型模型，在使用了这种新方法后，生成代码的性能超过了比其规模大出数倍的商用封闭源代码模型。展望未来，研究人员打算进一步拓展这个技术，使其能更好地应对更大规模的文本生成任务，而不仅仅是一次生成一个小的部分。此外，他们希望将自己的方法与机器学习相结合，使LLM能在持续受控的过程中学到更加准确的信息处理方式，从而提升总体的效果。长远来看，这项技术有潜力帮助非专业用户更轻松地利用AI生成的内容。例如，商业人士可以使用自然语言提示来撰写复杂的SQL查询，而无需掌握底层编程技术。 “这项工作不仅能促进编程助手、基于AI的数据分析工具以及科学发现设备的发展，更重要的是，为如何解决机器通信中关于世界模型的问题迈进了一步。”论文的合作者、McGill大学副教授Timothy O’Donnell表示。这项研究由加拿大的CIFAR AI主席项目和Siegel家庭基金会资助。业内专家认为，这一研究成果标志着人工智能领域的一次重要进步，尤其是对于提高小型语言模型的能力有着重要意义。这不仅有助于提升开发者的生产力，也为将AI应用扩展到更多领域提供了可能。MIT作为全球领先的研究机构之一，长期致力于探索人工智能领域的边界，本次研究再次证明了其在这个领域的领先地位。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

MIT领衔开发新方法：大幅提升AI生成代码的准确性和效率

相关链接

Command Palette

MIT领衔开发新方法：大幅提升AI生成代码的准确性和效率

相关链接

Command Palette

MIT领衔开发新方法：大幅提升AI生成代码的准确性和效率

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化