HyperAI超神经

扩散模型与自回归语言模型:从文本嵌入的角度分析

Zhang, Siyue ; Zhao, Yilun ; Geng, Liyuan ; Cohan, Arman ; Luu, Anh Tuan ; Zhao, Chen
发布日期: 5/22/2025
扩散模型与自回归语言模型:从文本嵌入的角度分析
摘要

基于大型语言模型(LLM)的嵌入模型得益于大规模的预训练和后训练,已经开始在通用文本嵌入任务(如文档检索)中超越基于BERT和T5的模型。然而,LLM嵌入的一个基本限制在于自回归预训练过程中使用的单向注意力机制,这与文本嵌入任务的双向性质不匹配。为此,我们提出采用扩散语言模型进行文本嵌入,这一提议源于其固有的双向架构以及在推理任务上最近取得的成功,这些成功已经达到了与LLM相匹敌甚至超越的水平。我们进行了首次对扩散语言嵌入模型的系统研究,该模型在长文档检索任务中的表现比基于LLM的嵌入模型高出20%,在以推理为中心的检索任务中高出8%,在指令跟随检索任务中高出2%,并且在传统的文本嵌入基准测试中也表现出竞争力。我们的分析验证了双向注意力机制对于编码长而复杂文本中的全局上下文至关重要。