17 天前

一种用于知识密集型自然语言处理任务的高效记忆增强型Transformer

Yuxiang Wu, Yu Zhao, Baotian Hu, Pasquale Minervini, Pontus Stenetorp, Sebastian Riedel
一种用于知识密集型自然语言处理任务的高效记忆增强型Transformer
摘要

外部知识的获取对于众多自然语言处理任务(如问答系统和对话系统)至关重要。现有方法通常依赖于将知识存储在模型参数中的参数化模型,或采用能够访问外部知识源的检索增强型模型。参数化模型与检索增强型模型在计算效率和预测准确性方面各具优势。为融合两类方法的优点,我们提出了高效记忆增强型Transformer(Efficient Memory-Augmented Transformer, EMAT)——该模型将外部知识编码为键值记忆,并利用快速最大内积搜索实现高效的记忆查询。此外,我们设计了预训练任务,使EMAT能够学习具有信息量的键值表示,并隐式掌握将多个记忆槽整合进Transformer架构的策略。在多种知识密集型任务(如问答和对话数据集)上的实验表明,仅通过本方法对参数化模型(T5-base)进行增强,即可显著提升性能(例如,在NQ数据集上EM指标从25.8提升至44.3),同时保持极高的吞吐量(例如,在NQ上达到1000次查询/秒)。相较于检索增强型模型,EMAT在所有任务上均表现出更优的运行速度,并在WoW和ELI5数据集上取得了更高的准确率。相关代码与数据集已公开,详见:https://github.com/uclnlp/EMAT。