
摘要
自然语言处理(NLP)技术的显著进展在很大程度上得益于多任务基准测试的发展,如GLUE和SuperGLUE。尽管这些基准测试主要关注一到两个输入句子的任务,但在设计高效处理更长输入的技术方面也取得了令人振奋的进展。本文介绍了MuLD:一个新的长文档基准测试,仅包含超过10,000个标记的文档。通过修改现有的NLP任务,我们创建了一个多样化的基准测试,要求模型能够成功建模文本中的长期依赖关系。我们评估了现有模型的表现,并发现该基准测试比其“短文档”版本更具挑战性。此外,通过对常规变压器和高效变压器进行评估,我们展示了增加上下文长度的模型在解决所提出的任务时表现更好,这表明未来对这些模型的改进对于解决类似的长文档问题至关重要。我们发布了数据和基线代码,以鼓励对高效NLP模型的进一步研究。