现代BERT还是DeBERTaV3?探究架构和数据对Transformer编码器模型性能的影响
Wissam Antoun, Benoît Sagot, Djamé Seddah
发布日期: 4/16/2025

摘要
预训练的Transformer编码器模型如DeBERTaV3和ModernBERT引入了旨在提高效率和性能的架构改进。尽管ModernBERT的作者报告称在多个基准测试中其性能优于DeBERTaV3,但由于未披露训练数据且缺乏使用相同数据集的对比实验,很难确定这些性能提升是由于架构改进还是训练数据的差异所致。在本研究中,我们通过在与CamemBERTaV2(一个法语版本的DeBERTaV3模型)相同的训练数据集上预训练ModernBERT,进行了一项控制实验,以隔离模型设计的影响。结果显示,前一代模型在样本效率和整体基准测试性能上仍保持优势,而ModernBERT的主要优势在于更快的训练和推理速度。然而,与早期模型如BERT和RoBERTa相比,新提出的模型仍然提供了有意义的架构改进。此外,我们观察到高质量的预训练数据可以加速收敛,但对最终性能的提升并不显著,这表明可能存在基准测试饱和现象。这些发现强调了在评估Transformer模型时,将预训练数据与架构创新区分开来的重要性。