2 个月前

ChatQA:在对话问答和RAG中超越GPT-4

Zihan Liu; Wei Ping; Rajarshi Roy; Peng Xu; Chankyu Lee; Mohammad Shoeybi; Bryan Catanzaro
ChatQA:在对话问答和RAG中超越GPT-4
摘要

在这项工作中,我们介绍了ChatQA,这是一套在检索增强生成(RAG)和对话问答(QA)方面超越GPT-4的模型。为了提升生成效果,我们提出了一种两阶段指令调优方法,该方法显著提高了RAG的性能。为了实现有效的检索,我们引入了一种针对对话问答优化的密集检索器,其结果与现有的最先进的查询重写模型相当,同时大幅降低了部署成本。我们还发布了ChatRAG基准测试集,该测试集包含十个数据集,涵盖了对RAG、表格相关问答、算术计算以及涉及无法回答问题场景的全面评估。基于Llama2构建的我们的ChatQA-1.0-70B(得分:54.14),尽管其基础模型比GPT-4弱,但在ChatRAG基准测试集中仍能略微优于GPT-4-0613(得分:53.90)和GPT-4-Turbo-2024-04-09(得分:54.03),且未依赖任何来自OpenAI GPT模型的合成数据。值得注意的是,Llama3-ChatQA-1.5-70B模型在准确性上超过了GPT-4-Turbo-2024-04-09,实现了4.4%的提升。为了推动该领域的研究进展,我们将模型权重、指令调优数据、ChatRAG基准测试集和检索器开源给社区:https://chatqa-project.github.io/。

ChatQA:在对话问答和RAG中超越GPT-4 | 最新论文 | HyperAI超神经