17 天前

RetroMAE v2:用于检索导向语言模型预训练的双通道掩码自编码器

Shitao Xiao, Zheng Liu
RetroMAE v2:用于检索导向语言模型预训练的双通道掩码自编码器
摘要

为更好地支持网页搜索、问答系统等检索类应用,研究界正投入越来越多精力开发面向检索任务的语言模型。现有大多数工作聚焦于提升上下文嵌入中[CLS]标记的语义表征能力。然而,近期研究表明,除[CLS]标记外的普通标记也可能蕴含额外信息,有助于生成更优的表征效果。因此,有必要拓展现有方法,实现对所有上下文嵌入的联合预训练,以服务于检索任务。基于此动机,本文提出一种新型预训练方法——双通道掩码自编码器(Duplex Masked Auto-Encoder,简称DupMAE),旨在同时提升[CLS]标记与普通标记的上下文嵌入语义表征能力。该方法引入两项解码任务:其一,基于[CLS]嵌入重建原始输入句子;其二,基于全部普通标记的嵌入,最小化输入句子的词袋损失(Bag-of-Words Loss, BoW)。两项解码损失相加,共同用于训练统一的编码模型。经过降维与聚合处理后,[CLS]标记与普通标记的嵌入被拼接,形成输入文本的统一语义表示。DupMAE方法结构简洁,但实验表现优异:在仅引入较小解码开销的前提下,显著增强了模型的表征能力与迁移性能,在MS MARCO与BEIR等多个基准测试中均取得了显著提升。

RetroMAE v2:用于检索导向语言模型预训练的双通道掩码自编码器 | 最新论文 | HyperAI超神经