2 个月前

PaLM:通过路径扩展语言模型

Aakanksha Chowdhery; Sharan Narang; Jacob Devlin; Maarten Bosma; Gaurav Mishra; Adam Roberts; Paul Barham; Hyung Won Chung; Charles Sutton; Sebastian Gehrmann; Parker Schuh; Kensen Shi; Sasha Tsvyashchenko; Joshua Maynez; Abhishek Rao; Parker Barnes; Yi Tay; Noam Shazeer; Vinodkumar Prabhakaran; Emily Reif; Nan Du; Ben Hutchinson; Reiner Pope; James Bradbury; Jacob Austin; Michael Isard; Guy Gur-Ari; Pengcheng Yin; Toju Duke; Anselm Levskaya; Sanjay Ghemawat; Sunipa Dev; Henryk Michalewski; Xavier Garcia; Vedant Misra; Kevin Robinson; Liam Fedus; Denny Zhou; Daphne Ippolito; David Luan; Hyeontaek Lim; Barret Zoph; Alexander Spiridonov; Ryan Sepassi; David Dohan; Shivani Agrawal; Mark Omernick; Andrew M. Dai; Thanumalayan Sankaranarayana Pillai; Marie Pellat; Aitor Lewkowycz; Erica Moreira; Rewon Child; Oleksandr Polozov; Katherine Lee; Zongwei Zhou; Xuezhi Wang; Brennan Saeta; Mark Diaz; Orhan Firat; Michele Catasta; Jason Wei; Kathy Meier-Hellstern; Douglas Eck; Jeff Dean; Slav Petrov; Noah Fiedel
PaLM:通过路径扩展语言模型
摘要

大型语言模型在少样本学习中已展现出卓越的性能,能够显著减少适应特定应用所需的任务特定训练样本数量。为了进一步研究规模对少样本学习的影响,我们训练了一个拥有5400亿参数、密集激活的Transformer语言模型,命名为Pathways语言模型(PaLM)。我们利用Pathways这一新的机器学习系统,在6144个TPU v4芯片上对PaLM进行了训练,该系统能够在多个TPU Pod之间实现高效的训练。通过在数百个语言理解和生成基准测试中取得最先进的少样本学习结果,我们展示了继续扩展模型规模所带来的好处。在这些任务中的许多任务上,PaLM 540B实现了突破性的性能,超越了经过微调的最先进模型在一系列多步推理任务上的表现,并且在最近发布的BIG-bench基准测试中超过了普通人类的表现。大量的BIG-bench任务显示了随着模型规模扩大而带来的非连续性改进,这意味着性能在我们扩展到最大模型时急剧提升。此外,PaLM在多语言任务和源代码生成方面也表现出强大的能力,这一点我们在多种基准测试中得到了验证。我们还提供了关于偏见和毒性的全面分析,并研究了不同模型规模下的训练数据记忆程度。最后,我们讨论了与大型语言模型相关的伦理问题,并探讨了潜在的缓解策略。