17 天前

RetroMAE:通过掩码自编码器预训练面向检索的LLM

Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao
RetroMAE:通过掩码自编码器预训练面向检索的LLM
摘要

尽管预训练在众多重要的自然语言处理任务中取得了显著进展,但在密集检索(dense retrieval)领域,仍需探索更有效的预训练策略。本文提出了一种新型的、面向检索任务的预训练范式——RetroMAE,其基于掩码自编码器(Masked Auto-Encoder, MAE)架构。RetroMAE具有三项关键设计:1)一种新颖的MAE工作流程:在编码器和解码器分别使用不同的掩码对输入句子进行“污染”。编码器基于带有掩码的输入生成句子嵌入;随后,利用该句子嵌入以及解码器端的掩码输入,通过掩码语言建模(masked language modeling)恢复原始句子。2)非对称模型结构:编码器采用全尺度的BERT类Transformer架构,而解码器则仅使用单层Transformer结构。3)非对称掩码比例:编码器采用适中的掩码比例(15%~30%),而解码器则采用更为激进的掩码比例(50%~70%)。 该框架实现简单,且在实验中表现出色:所训练的模型在多个主流密集检索基准测试(如BEIR和MS MARCO)上显著提升了当前最优(SOTA)性能。为促进后续研究,本文已将源代码及预训练模型公开发布于GitHub:https://github.com/staoxiao/RetroMAE。