13 天前

SCROLLS:长语言序列上的标准化比较

Uri Shaham, Elad Segal, Maor Ivgi, Avia Efrat, Ori Yoran, Adi Haviv, Ankit Gupta, Wenhan Xiong, Mor Geva, Jonathan Berant, Omer Levy
SCROLLS:长语言序列上的标准化比较
摘要

自然语言处理(NLP)基准测试长期以来主要聚焦于短文本任务,如句子和段落,尽管在现实世界中,长文本占据了自然语言的相当大比例。为此,我们提出了SCROLLS——一组要求对长文本进行推理的任务集合。我们系统评估了现有的长文本数据集,精心筛选出那些文本本身自然较长的数据集,并优先选择需要在输入内容间整合信息的任务。SCROLLS涵盖摘要生成、问答和自然语言推理三类任务,覆盖文学、科学、商业及娱乐等多个领域。初步基线模型(包括Longformer Encoder-Decoder)的实验结果表明,当前模型在SCROLLS上的表现仍有巨大提升空间。我们已将所有数据集统一转化为文本到文本格式,并搭建了实时排行榜,以推动模型架构与预训练方法的研究进展。

SCROLLS:长语言序列上的标准化比较 | 最新论文 | HyperAI超神经