17 天前

基于基准数据集的ChatGPT系统性研究与综合评估

Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang
基于基准数据集的ChatGPT系统性研究与综合评估
摘要

近年来,以ChatGPT为代表的大语言模型(Large Language Models, LLMs)引发了广泛关注。然而,由于难以将模型生成的文本输出与真实答案(ground truth)进行有效比对,其在基准学术数据集上的评估仍处于探索阶段。本文旨在对ChatGPT在多种学术数据集上的表现进行系统性评估,涵盖问答、文本摘要、代码生成、常识推理、数学问题求解、机器翻译、偏见检测以及伦理考量等多样化任务。具体而言,我们在140项任务上对ChatGPT进行了评估,并分析了其在这些数据集中生成的25.5万条响应,使本研究成为目前对ChatGPT在自然语言处理(NLP)基准测试中规模最大、最全面的评估工作。简而言之,本研究旨在揭示ChatGPT在各类任务中的优势与局限,为未来基于大语言模型的研究提供重要参考。此外,我们还报告了一种在ChatGPT及其他指令微调模型中普遍观察到的新涌现能力——即同时理解并执行多轮查询指令的能力。尽管我们的广泛评估表明,ChatGPT具备处理多种任务的潜力,并在多个基准数据集上展现出令人瞩目的性能,但其在可靠解决诸多复杂任务方面仍存在显著不足。通过在多样化的NLP任务中对ChatGPT性能的全面剖析,本文为类似大语言模型在真实应用场景中的精准部署奠定了基础,推动其向更可靠、更可控的方向发展。