阿里巴巴通义实验室发现新方法:ZeroSearch大幅降低大语言模型训练成本
阿里巴巴达摩院的研究团队推出了一种名为ZeroSearch的新方法,可以在训练大型语言模型(LLM)时大幅降低成本。这一新方法已经发布在arXiv预印本服务器上。 随着像ChatGPT这样的LLM逐渐成为主流,运行这些模型所需的资源和相关成本急剧上升,促使AI开发商寻找其他技术以实现相同或更好的效果而减少开支。在此背景下,达摩院的研究团队开发了ZeroSearch。 ZeroSearch的核心思想是不再依赖搜索引擎API调用获取大量搜索结果来训练LLM,而是使用AI生成的模拟文档来模仿传统搜索引擎(如谷歌)的输出。这种方法不仅显著降低了资源需求,还提高了训练数据的质量,因为模拟文档中的数据比公开搜索结果更加可靠和可控。此外,ZeroSearch能够逐步降低生成文档的质量,以测试不同情景下的检索能力。 研究团队通过对不同AI模型的测试发现,使用ZeroSearch方法的训练成本仅为每64,000次查询70.80美元,相比之下,使用Google API的训练成本高达586.70美元。即使是参数更多的模型,ZeroSearch也能进一步降低成本。从结果来看,ZeroSearch训练出的模型质量与API训练出的模型基本持平甚至超过后者。 然而,研究团队也承认ZeroSearch方法存在一定的权衡。虽然该方法在经济上更为有效,但它需要至多四块A100 GPU,而Google API方法则没有GPU需求,这对于可持续性和硬件要求是一个挑战。 业内人士认为,ZeroSearch为降低LLM训练成本提供了一个新的思路,特别适用于资源有限的小型AI公司。阿里巴巴达摩院作为阿里巴巴集团旗下的顶尖研究机构,一直在致力于推动前沿的人工智能技术和应用。此次ZeroSearch的发布,再次展示了其在降低AI门槛方面的努力和成果。阿里巴巴近年来在AI领域的研发投入持续加大,ZeroSearch的成功也是其技术实力的一个体现。
