2 个月前
RoBERTa:一种稳健优化的BERT预训练方法
Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

摘要
语言模型预训练已带来显著的性能提升,但不同方法之间的仔细比较颇具挑战性。训练过程计算成本高昂,通常在不同规模的私有数据集上进行,正如我们将展示的那样,超参数选择对最终结果有着重大影响。本文对BERT预训练(Devlin等人,2019年)进行了复制研究,仔细测量了多个关键超参数和训练数据量的影响。我们发现,BERT的训练明显不足,且其性能可以匹敌甚至超过所有在其之后发布的模型。我们的最佳模型在GLUE、RACE和SQuAD基准测试中取得了最先进的结果。这些结果突显了先前被忽视的设计选择的重要性,并对近期报告的改进来源提出了质疑。我们发布了我们的模型和代码。