HyperAI超神经

PROMPTEVALS:用于定制生产大型语言模型管道的断言和护栏数据集

Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
发布日期: 4/23/2025
PROMPTEVALS:用于定制生产大型语言模型管道的断言和护栏数据集
摘要

大型语言模型(LLMs)越来越多地被部署在各个领域的专业化生产数据处理管道中,例如金融、市场营销和电子商务。然而,在处理大量输入时,它们经常无法遵循指令或达到开发者的预期。为了提高这些应用的可靠性,创建与管道并行运行的断言或护栏以确保LLM输出的正确性至关重要。然而,确定能够捕捉到开发者任务需求的一组正确断言颇具挑战性。在本文中,我们介绍了PROMPTEVALS数据集,该数据集包含2087个LLM管道提示及其对应的12623个断言标准,这些数据来源于使用我们开源的LLM管道工具的开发者。该数据集比之前的集合大5倍。通过使用PROMPTEVALS中的保留测试集作为基准,我们评估了闭源和开源模型在生成相关断言方面的表现。值得注意的是,我们的微调Mistral和Llama 3模型在平均性能上比GPT-4o高出20.93%,同时提供了更低的延迟和更好的性能。我们认为我们的数据集能够促进关于LLM可靠性、对齐性和提示工程的进一步研究。