6 个月前

自然语言处理

Yiming Tan Dehai Min Yu Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi

摘要

ChatGPT 是一种强大的大语言模型（Large Language Model, LLM），其知识库涵盖维基百科等资源，能够基于自身知识实现自然语言问答。因此，学术界和工业界日益关注 ChatGPT 是否能够替代传统的基于知识库的问答（Knowledge-Based Question Answering, KBQA）模型。尽管已有部分研究对 ChatGPT 的问答性能进行了分析，但针对各类复杂问题的大规模、综合性测试仍显不足，难以全面揭示该模型的局限性。本文提出一个遵循 Ribeiro 等人提出的 CheckList 框架中黑盒测试规范的评估体系。我们对 ChatGPT 及其系列大语言模型在八个真实世界中的基于知识库的复杂问答数据集上进行了系统评估，其中包括六个英文数据集和两个多语言数据集，测试用例总数约 19 万条。除 GPT 系列模型外，我们还评估了广受认可的 FLAN-T5 模型，以探究 GPT 系列与其他大语言模型之间的共性与差异。本研究的测试数据集与代码已公开，获取地址为：https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Yiming Tan Dehai Min Yu Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi

摘要

ChatGPT 是一种强大的大语言模型（Large Language Model, LLM），其知识库涵盖维基百科等资源，能够基于自身知识实现自然语言问答。因此，学术界和工业界日益关注 ChatGPT 是否能够替代传统的基于知识库的问答（Knowledge-Based Question Answering, KBQA）模型。尽管已有部分研究对 ChatGPT 的问答性能进行了分析，但针对各类复杂问题的大规模、综合性测试仍显不足，难以全面揭示该模型的局限性。本文提出一个遵循 Ribeiro 等人提出的 CheckList 框架中黑盒测试规范的评估体系。我们对 ChatGPT 及其系列大语言模型在八个真实世界中的基于知识库的复杂问答数据集上进行了系统评估，其中包括六个英文数据集和两个多语言数据集，测试用例总数约 19 万条。除 GPT 系列模型外，我们还评估了广受认可的 FLAN-T5 模型，以探究 GPT 系列与其他大语言模型之间的共性与差异。本研究的测试数据集与代码已公开，获取地址为：https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供