HyperAI超神经
Back to Headlines

Sakana AI 发布 TreeQuest:多模型协同提升 AI 解决复杂问题的能力 30%

2 days ago

7月3日,日本AI实验室Sakana AI推出了一种创新技术,可以让多个大语言模型(LLM)在执行单一任务时协同工作,共同构建一个“梦想团队”,其表现比单个模型高出约30%。这种名为Multi-LLM AB-MCTS的方法通过合理分配计算资源,使多个AI模型能够相互配合,结合各自的优势解决复杂问题。 当前领先的前沿AI模型虽然功能强大,但每个模型都有其独特的优缺点,这是由其不同的训练数据和架构决定的。例如,某个模型可能擅长编程,而另一个则更擅长创意写作。Sakana AI的研究人员认为这些差异不是缺点,而是可以利用的宝贵资源,就像多元化的团队能带来更伟大的成就一样,AI系统也能通过团结合作实现更多目标。通过联合不同的模型,系统能够在有限的调用次数内最大化性能,特别是在处理复杂任务时效果显著。 Multi-LLM AB-MCTS的核心是一种名为适应性分支蒙特卡洛树搜索(AB-MCTS)的算法。AB-MCTS通过智能平衡两种搜索策略——深入搜索和广泛搜索,实现模型的试错过程。深入搜索是指不断优化一个有前景的解答,而广泛搜索则是从头开始生成全新的解决方案。当系统遇到困境或发现更有潜力的方向时,它可以灵活地在这两种策略之间转换,从而不断提高解决问题的效果。 研究人员进一步将这种方法扩展到多模型版本,不仅决定采取哪种搜索策略(优化还是生成),还能选择执行该策略的最合适的LLM。在任务开始时,系统会对可用的LLM进行均衡测试,逐步了解哪些模型更加有效,并将更多的工作负荷分配给这些模型。 研究团队在ARC-AGI-2基准测试中验证了Multi-LLM AB-MCTS的性能。ARC(抽象与推理语料库)专门测试人类类似的创新视觉推理能力,因此对AI来说具有很大挑战性。实验中,团队使用了包括o4-mini、Gemini 2.5 Pro和DeepSeek-R1在内的几种前沿模型。结果显示,多模型团队成功解决了120个测试问题中的30%以上,大幅超过了单独模型的表现。 更令人印象深刻的是,团队观察到某些问题在多模型协作下得以解决,而这些问题是单个模型无法完成的。例如,o4-mini生成的初始解法虽有错误,但在通过其他模型(如DeepSeek-R1和Gemini-2.5 Pro)的分析和修正后,最终找到了正确答案。 为了让更多开发者和企业受益于这一技术,Sakana AI已将该算法作为一个名为TreeQuest的开源框架发布,适用于商业用途。TreeQuest提供了一个灵活的API,允许用户根据自己的需求自定义评分和逻辑来实现Multi-LLM AB-MCTS。早期的应用表明,AB-MCTS不仅在学术测试中表现出色,还可以解决更实际的问题,如复杂的算法编程和提高机器学习模型的准确性。 此外,AB-MCTS有望在需要反复试错的场景中发挥重要作用,比如优化现有软件的性能指标。研究人员举例说,它可以用来自动生成方法来减少网页服务的响应延迟。 Sakana AI的这一突破性成果不仅展示了多模型协作的巨大潜力,也为未来的AI企业应用开辟了新道路。 业内人士认为,Sakana AI的研究为解决AI模型的局限性提供了一种创新思路,通过集合不同模型的优势,可以大幅提升系统的稳定性和可靠性,尤其是在处理商业任务时。Sakana AI是一家专注于AI技术和应用研究的实验室,近年来在算法创新方面取得了显著进展。他们的开放态度和实用工具将推动AI领域的进一步发展。

Related Links