17 天前

RetroMAE：通过掩码自编码器预训练面向检索的LLM

Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao

摘要

尽管预训练在众多重要的自然语言处理任务中取得了显著进展，但在密集检索（dense retrieval）领域，仍需探索更有效的预训练策略。本文提出了一种新型的、面向检索任务的预训练范式——RetroMAE，其基于掩码自编码器（Masked Auto-Encoder, MAE）架构。RetroMAE具有三项关键设计：1）一种新颖的MAE工作流程：在编码器和解码器分别使用不同的掩码对输入句子进行“污染”。编码器基于带有掩码的输入生成句子嵌入；随后，利用该句子嵌入以及解码器端的掩码输入，通过掩码语言建模（masked language modeling）恢复原始句子。2）非对称模型结构：编码器采用全尺度的BERT类Transformer架构，而解码器则仅使用单层Transformer结构。3）非对称掩码比例：编码器采用适中的掩码比例（15%~30%），而解码器则采用更为激进的掩码比例（50%~70%）。该框架实现简单，且在实验中表现出色：所训练的模型在多个主流密集检索基准测试（如BEIR和MS MARCO）上显著提升了当前最优（SOTA）性能。为促进后续研究，本文已将源代码及预训练模型公开发布于GitHub：https://github.com/staoxiao/RetroMAE。