6 个月前

自然语言处理

Wenhan Xiong Anchit Gupta Shubham Toshniwal Yashar Mehdad Wen-tau Yih

摘要

我们提出了一项关于如何将现有预训练文本到文本模型适配于长序列输入的实证研究。通过在预训练流程的三个关键维度——模型架构、优化目标与预训练语料库——上进行系统性探索，我们提出了一种有效的方法，可基于现有的短上下文模型构建长上下文模型。具体而言，我们用池化增强的分块注意力（pooling-augmented blockwise attention）替代Transformer中的全注意力机制，并采用一种掩码跨度预测任务（masked-span prediction task）进行预训练，其中跨度长度具有多样性。在预训练语料的选择方面，我们发现：从大规模开放域语料库中随机拼接短文档，其性能优于使用现有长文档语料库，后者通常在领域覆盖范围上存在局限。基于上述发现，我们构建了一个长上下文模型，在长文本问答任务上表现出具有竞争力的性能，并在五个长文本摘要数据集上达到了新的最先进水平，其表现常优于参数规模更大的先前方法。相关代码已开源，地址为：https://github.com/facebookresearch/bart_ls。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Wenhan Xiong Anchit Gupta Shubham Toshniwal Yashar Mehdad Wen-tau Yih

摘要

我们提出了一项关于如何将现有预训练文本到文本模型适配于长序列输入的实证研究。通过在预训练流程的三个关键维度——模型架构、优化目标与预训练语料库——上进行系统性探索，我们提出了一种有效的方法，可基于现有的短上下文模型构建长上下文模型。具体而言，我们用池化增强的分块注意力（pooling-augmented blockwise attention）替代Transformer中的全注意力机制，并采用一种掩码跨度预测任务（masked-span prediction task）进行预训练，其中跨度长度具有多样性。在预训练语料的选择方面，我们发现：从大规模开放域语料库中随机拼接短文档，其性能优于使用现有长文档语料库，后者通常在领域覆盖范围上存在局限。基于上述发现，我们构建了一个长上下文模型，在长文本问答任务上表现出具有竞争力的性能，并在五个长文本摘要数据集上达到了新的最先进水平，其表现常优于参数规模更大的先前方法。相关代码已开源，地址为：https://github.com/facebookresearch/bart_ls。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供