2 个月前
对Llama2、Mistral、Gemma和GPT的事实性、毒性、偏见和幻觉倾向进行基准测试
David Nadeau; Mike Kroutikov; Karen McNeil; Simon Baribeau

摘要
本文介绍了十四种新的数据集,用于评估大型语言模型在企业任务背景下的安全性。研究设计了一种方法来评估模型的安全性,该方法通过模型遵循指令的能力以及生成的内容是否真实、无偏见、有根据且适当来确定。在本研究中,我们选择OpenAI的GPT作为比较基准,因为它在所有安全层面都表现出色。在开源模型方面,对于较小的模型,Meta的Llama2在事实性和毒性方面的表现良好,但其幻觉倾向最高。Mistral的幻觉现象最少,但在处理毒性方面表现不佳。它在一个狭窄垂直领域的数据集中混合了多种任务和安全向量时表现出色。新推出的基于Google Gemini的开源模型Gemma总体上较为平衡,但仍落后于其他模型。在进行多轮对话(多轮提示)时,我们发现开源模型的安全性显著下降。除了OpenAI的GPT之外,Mistral是在多轮测试中仍能保持良好表现的唯一模型。