HyperAIHyperAI

Command Palette

Search for a command to run...

RetroMAE:通过掩码自编码器预训练面向检索的LLM

Shitao Xiao Zheng Liu Yingxia Shao Zhao Cao

摘要

尽管预训练在众多重要的自然语言处理任务中取得了显著进展,但在密集检索(dense retrieval)领域,仍需探索更有效的预训练策略。本文提出了一种新型的、面向检索任务的预训练范式——RetroMAE,其基于掩码自编码器(Masked Auto-Encoder, MAE)架构。RetroMAE具有三项关键设计:1)一种新颖的MAE工作流程:在编码器和解码器分别使用不同的掩码对输入句子进行“污染”。编码器基于带有掩码的输入生成句子嵌入;随后,利用该句子嵌入以及解码器端的掩码输入,通过掩码语言建模(masked language modeling)恢复原始句子。2)非对称模型结构:编码器采用全尺度的BERT类Transformer架构,而解码器则仅使用单层Transformer结构。3)非对称掩码比例:编码器采用适中的掩码比例(15%~30%),而解码器则采用更为激进的掩码比例(50%~70%)。 该框架实现简单,且在实验中表现出色:所训练的模型在多个主流密集检索基准测试(如BEIR和MS MARCO)上显著提升了当前最优(SOTA)性能。为促进后续研究,本文已将源代码及预训练模型公开发布于GitHub:https://github.com/staoxiao/RetroMAE


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供