8 个月前

自然语言处理

Sebastian Raschka

摘要

我们提出了一项基准测试，用于评估语言模型在生成问题答案时是否具有真实性。该基准测试包括817个问题，涵盖了38个类别，如健康、法律、金融和政治。我们设计了一些问题，这些问题由于错误的信念或误解，部分人类可能会给出错误的答案。为了表现良好，模型必须避免生成从模仿人类文本中学习到的错误答案。我们测试了GPT-3、GPT-Neo/J、GPT-2以及一个基于T5的模型。最好的模型在58%的问题上表现出真实性，而人类的表现为94%。这些模型生成了许多模仿流行误解的错误答案，有可能误导人类。通常情况下，最大的模型是最不真实的。这与其他自然语言处理任务形成对比，在其他任务中，性能随着模型规模的增大而提高。然而，如果错误答案是从训练数据分布中学习到的，则这一结果是可以预期的。我们建议，仅通过扩大模型规模来提高真实性的前景不如使用除模仿网络文本之外的其他训练目标进行微调更有希望。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

Sebastian Raschka

摘要

我们提出了一项基准测试，用于评估语言模型在生成问题答案时是否具有真实性。该基准测试包括817个问题，涵盖了38个类别，如健康、法律、金融和政治。我们设计了一些问题，这些问题由于错误的信念或误解，部分人类可能会给出错误的答案。为了表现良好，模型必须避免生成从模仿人类文本中学习到的错误答案。我们测试了GPT-3、GPT-Neo/J、GPT-2以及一个基于T5的模型。最好的模型在58%的问题上表现出真实性，而人类的表现为94%。这些模型生成了许多模仿流行误解的错误答案，有可能误导人类。通常情况下，最大的模型是最不真实的。这与其他自然语言处理任务形成对比，在其他任务中，性能随着模型规模的增大而提高。然而，如果错误答案是从训练数据分布中学习到的，则这一结果是可以预期的。我们建议，仅通过扩大模型规模来提高真实性的前景不如使用除模仿网络文本之外的其他训练目标进行微调更有希望。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供