HyperAI超神经

在最新科技探索中，开发人员利用OpenAI的Evals工具来改进其大型语言模型（LLM）在特定应用场景中的表现，尤其是在处理企业预算编制任务时。这一过程不仅提高了应用的准确性，还通过有趣的游戏化设计提升了用户的参与度。背景与动机随着大型语言模型的快速发展，如何将这些模型有效整合到实际应用中成为开发者面临的重要挑战。在作者的一篇博客《使用LLM结构化输出进行路由》中，他探讨了如何将传统软件集成模式应用于新的AI工程领域，而本次的文章则进一步深入，探讨了如何优化路由器的选择，使其能够更准确地处理用户请求。该路由器用于一个名为《Better Get Done!》的企业预算编制应用程序，这个程序通过结合游戏元素使枯燥的预算编制工作变得趣味横生。用户在游戏中需要与AI助手互动，完成预算编制的各项任务，同时避免被“愤怒”的财务部门追捕。游戏化的设计极大地提升了用户使用这款应用的热情和积极性，同时也展示了将复杂任务转化为娱乐体验的可能性。 Evals工具的使用为了确保《Better Get Done!》应用的路由器拥有高精度，作者使用了OpenAI的Evals功能来进行系统化的测试和优化。Evals是一种针对任务导向型应用的迭代测试工具，可以帮助开发者评估不同模型(prompt-model组合)的表现，从而选择最合适的配置方案。具体步骤如下：创建数据集：作者首先创建了一个包含100个记录的数据文件，每个记录包括用户可能的输入请求以及对应的理想响应类型。例如，“创建一条包含10台Mac M1的预算项，每台价格为3500美元”，理想响应类型是“structured_response”。上传数据文件到OpenAI平台：使用API将数据文件上传至OpenAI平台，获取唯一标识符(dataset_file_id)，以便后续调用。定义模型和提示（Prompt）：选取了几种不同的LLM模型如gpt-4o-mini, gpt-4.1-mini, gpt-4.1-nano，并设计了一系列提示语句，从通用到详细，逐步增加提示的复杂度，如明确的指令集、样例输入等，以测试不同设置对输出的影响。配置Eval：定义了数据源配置和评估准则，确保每次运行都能准确匹配预期响应。数据源配置包括输入消息和理想响应的字段映射；评估准则是将模型生成的响应文本与理想响应进行对比，判断是否正确路由。执行Runs（运行测试）：通过嵌套循环构建多个测试任务（Runs），每个提示语句和模型组合都会被逐一测试，并自动生成评估结果。测试结果与结论通过图表展示，结果显示提示语句的精确度显著影响了路由结果的准确性，尽管模型的选择也很重要。最终，作者选择了最为详细的提示（包含样例）配合gpt-4o-mini模型作为最优方案。这不仅是因为它在测试中表现出最高的匹配率（约95%），还因为它能够在不同的场景下保持一致性和较低的成本（$0.15/百万token）。行业观点与公司背景 Josiah Grace作为OpenAI的技术专家，其分享的三本实用手册为许多开发者提供了宝贵的指引。他指出，系统化的评估和测试是确保LLM应用高质量的关键，尤其是在涉及重要决策支持的场合下，比如健康照顾代理或企业内部的应用。本次项目不仅展示了如何利用OpenAI的工具进行有效的模型优化，还通过独特的游戏化方法提高了用户的使用体验，为将AI技术融入日常工作的创新途径提供了一种新思路。对于OpenAI这样的技术领先者来说，《Better Get Done!》项目的成功不仅是一次技术上的胜利，也是其不断推进AI应用落地，改善人类生活和工作效率的又一有力证明。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

优化编程工作流：利用OpenAI Evals提升LLM路由器的准确性和效率

相关链接

Command Palette

优化编程工作流：利用OpenAI Evals提升LLM路由器的准确性和效率

相关链接

Command Palette

优化编程工作流：利用OpenAI Evals提升LLM路由器的准确性和效率

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答