11 天前

预训练语言模型中的句子嵌入

Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li

摘要

预训练的上下文表示模型（如 BERT）在自然语言处理领域取得了巨大成功。然而，未经微调的预训练语言模型所生成的句子嵌入，被发现难以有效捕捉句子的语义信息。本文认为，BERT 嵌入中蕴含的语义信息尚未得到充分挖掘。我们首先从理论上揭示了掩码语言建模预训练目标与语义相似性任务之间的内在联系，随后对 BERT 的句子嵌入进行了实证分析。研究发现，BERT 始终诱导出一种非平滑且各向异性的句子语义空间，这严重制约了其在语义相似性任务上的表现。为解决这一问题，我们提出通过无监督目标学习的归一化流（normalizing flows）对各向异性的句子嵌入分布进行转换，使其转化为平滑且各向同性的高斯分布。实验结果表明，所提出的 BERT-Flow 方法在多种语义文本相似性任务上显著优于当前最先进的句子嵌入方法。代码已开源，地址为：https://github.com/bohanli/BERT-flow。