2 个月前
训练计算最优的大规模语言模型
Jordan Hoffmann; Sebastian Borgeaud; Arthur Mensch; Elena Buchatskaya; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Aurelia Guy; Simon Osindero; Karen Simonyan; Erich Elsen; Jack W. Rae; Oriol Vinyals; Laurent Sifre

摘要
我们研究了在给定计算预算下训练变压器语言模型的最佳模型规模和训练令牌数量。研究发现,当前的大规模语言模型显著欠训,这是由于近期研究重点放在扩大语言模型规模的同时保持训练数据量不变所致。通过训练超过400个参数范围从7000万到160亿以上的语言模型,以及50亿到5000亿的训练令牌,我们发现对于计算最优的训练,模型规模和训练令牌数量应该等比例扩展:每次模型规模翻倍时,训练令牌数量也应翻倍。为了验证这一假设,我们使用与Gopher相同的计算预算训练了一个预测的计算最优模型Chinchilla,该模型具有700亿参数和4倍于Gopher的数据量。Chinchilla在广泛的下游评估任务中显著且一致地优于Gopher(280亿参数)、GPT-3(175亿参数)、Jurassic-1(178亿参数)和Megatron-Turing NLG(530亿参数)。这也意味着Chinchilla在微调和推理过程中使用的计算资源大大减少,极大地促进了下游应用。值得一提的是,Chinchilla在MMLU基准测试中达到了67.5%的平均准确率,比Gopher提高了超过7个百分点。