2 个月前
大型语言模型的指令遵循评估
Jeffrey Zhou; Tianjian Lu; Swaroop Mishra; Siddhartha Brahma; Sujoy Basu; Yi Luan; Denny Zhou; Le Hou

摘要
大型语言模型(LLMs)的一项核心能力是遵循自然语言指令。然而,这种能力的评估尚未标准化:人工评估成本高昂、速度缓慢且不具备客观可重复性,而基于LLM的自动评估则可能存在偏见或受制于评估者LLM的能力。为了解决这些问题,我们引入了针对大型语言模型的指令遵循评估(Instruction-Following Eval, IFEval)。IFEval 是一个简单且易于重现的评估基准。它专注于一组“可验证指令”,例如“字数超过400字”和“至少提及人工智能关键词3次”。我们确定了25种此类可验证指令,并构建了约500个提示,每个提示包含一条或多条可验证指令。我们展示了市场上两种广泛可用的LLM在该基准上的评估结果。我们的代码和数据可以在以下地址获取:https://github.com/google-research/google-research/tree/master/instruction_following_eval