HyperAI超神经
5 days ago

我们是否仍应使用掩码语言模型对编码器进行预训练?

Hippolyte Gisserot-Boukhlef; Nicolas Boizard; Manuel Faysse; Duarte M. Alves; Emmanuel Malherbe; André F. T. Martins; Céline Hudelot; Pierre Colombo
我们是否仍应使用掩码语言模型对编码器进行预训练?
摘要

学习高质量的文本表示对于广泛范围的自然语言处理(NLP)任务至关重要。尽管编码器预训练传统上依赖于掩码语言模型(MLM),但最近的研究表明,通过因果语言模型(CLM)预训练的解码器模型可以有效地重新用于编码器任务,并且在文本表示基准测试中通常超越传统的编码器。然而,这些性能提升是否反映了CLM目标的固有优势,还是由于混淆因素如模型规模和数据规模的影响,仍不清楚。本文通过一系列大规模、精心控制的预训练消融实验来探讨这一问题,共训练了30个参数量从2.1亿到10亿的模型,并进行了超过15,000次微调和评估运行。我们发现,虽然使用MLM进行训练通常在各种文本表示任务中表现出更好的性能,但CLM预训练的模型在数据效率方面更高,并且展示了改进的微调稳定性。基于这些发现,我们实验性地证明了一种两阶段训练策略——先应用CLM再应用MLM——在固定计算资源预算下能够实现最佳性能。此外,我们还展示了当从现有的大型语言模型生态系统中的预训练CLM模型初始化时,这种策略更具吸引力,因为这可以减少训练顶级编码器模型所需的计算负担。我们已将所有项目资料发布在 https://hf.co/MLMvsCLM ,以促进进一步研究。