HyperAIHyperAI

Command Palette

Search for a command to run...

优化编程工作流:利用OpenAI Evals提升LLM路由器的准确性和效率

在最新科技探索中,开发人员利用OpenAI的Evals工具来改进其大型语言模型(LLM)在特定应用场景中的表现,尤其是在处理企业预算编制任务时。这一过程不仅提高了应用的准确性,还通过有趣的游戏化设计提升了用户的参与度。 背景与动机 随着大型语言模型的快速发展,如何将这些模型有效整合到实际应用中成为开发者面临的重要挑战。在作者的一篇博客《使用LLM结构化输出进行路由》中,他探讨了如何将传统软件集成模式应用于新的AI工程领域,而本次的文章则进一步深入,探讨了如何优化路由器的选择,使其能够更准确地处理用户请求。该路由器用于一个名为《Better Get Done!》的企业预算编制应用程序,这个程序通过结合游戏元素使枯燥的预算编制工作变得趣味横生。用户在游戏中需要与AI助手互动,完成预算编制的各项任务,同时避免被“愤怒”的财务部门追捕。游戏化的设计极大地提升了用户使用这款应用的热情和积极性,同时也展示了将复杂任务转化为娱乐体验的可能性。 Evals工具的使用 为了确保《Better Get Done!》应用的路由器拥有高精度,作者使用了OpenAI的Evals功能来进行系统化的测试和优化。Evals是一种针对任务导向型应用的迭代测试工具,可以帮助开发者评估不同模型(prompt-model组合)的表现,从而选择最合适的配置方案。具体步骤如下: 创建数据集:作者首先创建了一个包含100个记录的数据文件,每个记录包括用户可能的输入请求以及对应的理想响应类型。例如,“创建一条包含10台Mac M1的预算项,每台价格为3500美元”,理想响应类型是“structured_response”。 上传数据文件到OpenAI平台:使用API将数据文件上传至OpenAI平台,获取唯一标识符(dataset_file_id),以便后续调用。 定义模型和提示(Prompt):选取了几种不同的LLM模型如gpt-4o-mini, gpt-4.1-mini, gpt-4.1-nano,并设计了一系列提示语句,从通用到详细,逐步增加提示的复杂度,如明确的指令集、样例输入等,以测试不同设置对输出的影响。 配置Eval:定义了数据源配置和评估准则,确保每次运行都能准确匹配预期响应。数据源配置包括输入消息和理想响应的字段映射;评估准则是将模型生成的响应文本与理想响应进行对比,判断是否正确路由。 执行Runs(运行测试):通过嵌套循环构建多个测试任务(Runs),每个提示语句和模型组合都会被逐一测试,并自动生成评估结果。 测试结果与结论 通过图表展示,结果显示提示语句的精确度显著影响了路由结果的准确性,尽管模型的选择也很重要。最终,作者选择了最为详细的提示(包含样例)配合gpt-4o-mini模型作为最优方案。这不仅是因为它在测试中表现出最高的匹配率(约95%),还因为它能够在不同的场景下保持一致性和较低的成本($0.15/百万token)。 行业观点与公司背景 Josiah Grace作为OpenAI的技术专家,其分享的三本实用手册为许多开发者提供了宝贵的指引。他指出,系统化的评估和测试是确保LLM应用高质量的关键,尤其是在涉及重要决策支持的场合下,比如健康照顾代理或企业内部的应用。本次项目不仅展示了如何利用OpenAI的工具进行有效的模型优化,还通过独特的游戏化方法提高了用户的使用体验,为将AI技术融入日常工作的创新途径提供了一种新思路。 对于OpenAI这样的技术领先者来说,《Better Get Done!》项目的成功不仅是一次技术上的胜利,也是其不断推进AI应用落地,改善人类生活和工作效率的又一有力证明。

相关链接