HyperAI超神经
a day ago

SciArena:科学文献任务中基础模型的开放评估平台

Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
SciArena:科学文献任务中基础模型的开放评估平台
摘要

我们介绍了SciArena,这是一个开放且协作的平台,用于评估基础模型在科学文献任务中的表现。与传统的科学文献理解和综合基准不同,SciArena直接吸引研究社区参与,采用类似于Chatbot Arena的评价方法,即通过社区投票对模型进行比较。通过利用集体智慧,SciArena提供了一种由社区驱动的基础模型性能评估,这些模型需要在开放性的科学任务中生成基于文献的长篇回答。目前,该平台支持23个开源和专有基础模型,并已从多个科学领域的可信研究人员那里收集了超过13,000票。我们分析了迄今为止收集的数据,确认提交的问题具有多样性,并且符合实际的文献需求;同时,参与的研究人员在评价过程中表现出强烈的自我一致性以及较高的互评者一致性。我们根据模型排名榜讨论了结果和见解。为了进一步推动构建基于模型的文献任务自动化评价系统的研究,我们发布了SciArena-Eval,这是一个基于我们收集的偏好数据的元评价基准。该基准通过将模型的两两评估与人工投票进行比较来衡量其判断答案质量的准确性。我们的实验突显了该基准面临的挑战,并强调了开发更可靠的自动化评价方法的需求。