HyperAI超神经
Back to Headlines

MIT新方法提升AI代码生成准确性与效率

13 天前

现在,程序员可以利用大规模语言模型(LLMs)快速生成计算机代码。然而,这种生成的代码只有在遵循编程语言规则且不引发计算机崩溃的情况下,才能真正为程序员提供便利。目前,确保LLMs生成的文本符合特定语言规则的方法要么扭曲了模型的初衷,要么耗时太长,难以适用于复杂任务。 为了解决这一问题,麻省理工学院(MIT)及其他机构的研究人员开发了一种新方法,可以自动引导LLM生成符合语言规则且无误的文本。这一方法使模型能够专注于最可能有效的输出,同时在早期就淘汰不合理的输出,从而提升计算效率。研究人员的架构在生成准确、结构合理的输出方面,使小型LLMs的表现超越了大型模型,尤其是在真实世界的应用中,如分子生物学和机器人等领域。 研究人员的方法是将专家的知识融入LLM中,以引导其生成符合用户定义结构约束的输出,并确保其内容的准确性。他们采用了顺序蒙特卡洛(sequential Monte Carlo)技术,使LLM能够在并行生成过程中进行竞争。每个输出都被赋予一个权重,表示其结构有效性和语义准确性的可能性。在计算的每一步,模型都会聚焦于权重更高的输出,忽略其他输出。这种方式就像有一位专家从旁指导,确保LLM在每个步骤都做出正确的选择,同时不偏离总体目标。 研究人员通过四种类型的输出来测试这一方法:Python代码生成、SQL数据库查询、分子结构生成和机器人行动计划生成。与现有方法相比,他们的方法不仅更准确,而且计算资源需求更低。例如,在Python代码生成任务中,一个小型、开源的模型利用这一架构,性能超过了cest二倍以上的一个专门用于商业的、闭源的模型。 展望未来,研究人员希望使用该技术来控制更大的文本生成块,而不是一次只处理一小部分。他们还计划将这种方法与学习相结合,使模型在控制输出的过程中逐渐变得更加准确。 从长远来看,这一项目可能对非技术用户产生更广泛的影响。例如,它可以与自动化数据建模系统结合,使用户能够用自然语言编写复杂的SQL查询。它也可以用于机器辅助的数据分析系统,用户可以与能够准确建模数据意义和用户问题的软件进行对话。 “这项工作不仅有重要的研究意义,还可能改进编程助手、AI支持的数据分析工具和科学发现工具,确保AI生成的内容既实用又正确。”MIT研究生、论文的共同第一作者João Loula表示。 Timothy J. O'Donnell,麦吉尔大学(McGill University)的副教授及Mila的加拿大CIFAR AI研究员,领导了国际团队。他指出,这项技术在狭窄的符号域中实现了从文字到分布于具象意义的映射,是朝着理解机器如何像我们一样沟通关于世界的深层认知科学、语言学和人工智能问题迈出的一步。

Related Links