5 days ago

我们是否仍应使用掩码语言模型对编码器进行预训练？

Hippolyte Gisserot-Boukhlef; Nicolas Boizard; Manuel Faysse; Duarte M. Alves; Emmanuel Malherbe; André F. T. Martins; Céline Hudelot; Pierre Colombo

查看论文详情

摘要

学习高质量的文本表示对于广泛范围的自然语言处理（NLP）任务至关重要。尽管编码器预训练传统上依赖于掩码语言模型（MLM），但最近的研究表明，通过因果语言模型（CLM）预训练的解码器模型可以有效地重新用于编码器任务，并且在文本表示基准测试中通常超越传统的编码器。然而，这些性能提升是否反映了CLM目标的固有优势，还是由于混淆因素如模型规模和数据规模的影响，仍不清楚。本文通过一系列大规模、精心控制的预训练消融实验来探讨这一问题，共训练了30个参数量从2.1亿到10亿的模型，并进行了超过15,000次微调和评估运行。我们发现，虽然使用MLM进行训练通常在各种文本表示任务中表现出更好的性能，但CLM预训练的模型在数据效率方面更高，并且展示了改进的微调稳定性。基于这些发现，我们实验性地证明了一种两阶段训练策略——先应用CLM再应用MLM——在固定计算资源预算下能够实现最佳性能。此外，我们还展示了当从现有的大型语言模型生态系统中的预训练CLM模型初始化时，这种策略更具吸引力，因为这可以减少训练顶级编码器模型所需的计算负担。我们已将所有项目资料发布在 https://hf.co/MLMvsCLM ，以促进进一步研究。