HyperAI超神经
Back to Headlines

Galileo AI推出新基准测试框架,评估企业级语言模型性能

8 days ago

Galileo AI 最近推出了一项企业级语言模型 benchmark,即 AI Agent 框架,旨在评估不同语言模型在特定行业中的表现。这项框架涵盖五个垂直行业:银行、医疗保健、保险、投资和电信,同时根据五大标准对模型进行评测:工具选择准确性、响应速度、成本、对话轮数等。工具选择准确性被列为最重要的标准之一,NVIDIA 也在其研究中强调了这一点。 AI 代理框架通过模拟真实世界的操作环境,评估了多个语言模型的性能。这些测试在一个标准化的模拟管道中进行,包括被测的大型语言模型(LLM)、用户模拟器和支持多回合对话和工具调用的预定义 JSON 模式的工具模拟器。每个模型都经历了相同的测试流程,包括一致的动作完成 (AC) 和工具选择质量 (TSQ) 评估。这种平行实验设计确保了公平和可重复的基准测试。 值得一提的是,有三位公开可用的开源模型进入了一般前三个榜单。这意味着开发者可以自行运行测试和基准评估,提高透明度和参与度。此外,近期的研究表明,某些模型在特定 AI 代理框架中表现出色,这为模型选择提供了新的依据。对于那些希望在其组织内实施 AI 代理的企业,利用来自相同模型提供商的基础框架或 SDK 可能会在优化操作系统时获得更好的效果。 未来的趋势很可能是更小的语言模型,这些模型会不断进行微调,同时也将在多模型编排环境中运作。尽管目前的框架没有执行模型编排,即没有使用两个或更多的模型组合来创建单个 AI 代理,但在大多数实际应用场景中,模型编排仍然是一种重要的实现方式。因此,单独测试模型的能力依旧十分宝贵。 该框架提供了一些标准化的支持手段给每个受测模型,但主要是为了评估它们的原生能力,而非通过额外的技术增强模型表现。具体的帮助方式是定制的系统提示,为每个模型初始化模拟环境并描述可用工具。这样的基本设置使所有模型能够在类似条件下进行测试,有助于保持一致性和可扩展性。 AI 代理框架的对话模拟能力支持连续决策和上下文保持,允许模型基于之前的互动和工具输出作出适应,从而在复杂的场景下提高表现。然而,在测试过程中并没有涉及特定模型的修改或性能提升,如额外的推理层或错误处理机制。所有的支持措施都是均匀应用于每个模型的,这在基准测试过程中确保了公平性、稳定性和结果的复现性。 业内人士认为,这种全面且标准化的评测方法对于企业和开发者来说是非常有益的,因为它提供了一个中立的平台来对比不同语言模型的能力。这一框架的开放源代码也进一步提高了参与者的信任度和技术透明度。作为一家专注于为企业应用开发高级 AI 技术的公司,Galileo AI 的这一举措不仅推动了语言模型在特定业务领域的应用,也为未来的 AI 代理发展设定了一个新的标准。

Related Links