2ヶ月前
PaLM: パスウェイを使用した言語モデルのスケーリング
Aakanksha Chowdhery; Sharan Narang; Jacob Devlin; Maarten Bosma; Gaurav Mishra; Adam Roberts; Paul Barham; Hyung Won Chung; Charles Sutton; Sebastian Gehrmann; Parker Schuh; Kensen Shi; Sasha Tsvyashchenko; Joshua Maynez; Abhishek Rao; Parker Barnes; Yi Tay; Noam Shazeer; Vinodkumar Prabhakaran; Emily Reif; Nan Du; Ben Hutchinson; Reiner Pope; James Bradbury; Jacob Austin; Michael Isard; Guy Gur-Ari; Pengcheng Yin; Toju Duke; Anselm Levskaya; Sanjay Ghemawat; Sunipa Dev; Henryk Michalewski; Xavier Garcia; Vedant Misra; Kevin Robinson; Liam Fedus; Denny Zhou; Daphne Ippolito; David Luan; Hyeontaek Lim; Barret Zoph; Alexander Spiridonov; Ryan Sepassi; David Dohan; Shivani Agrawal; Mark Omernick; Andrew M. Dai; Thanumalayan Sankaranarayana Pillai; Marie Pellat; Aitor Lewkowycz; Erica Moreira; Rewon Child; Oleksandr Polozov; Katherine Lee; Zongwei Zhou; Xuezhi Wang; Brennan Saeta; Mark Diaz; Orhan Firat; Michele Catasta; Jason Wei; Kathy Meier-Hellstern; Douglas Eck; Jeff Dean; Slav Petrov; Noah Fiedel

要約
大規模言語モデルは、特定のタスクに適応するために必要なタスク固有の学習例を大幅に削減する少ショット学習を使用して、様々な自然言語処理タスクで優れた性能を達成することが示されています。スケールが少ショット学習に与える影響をより深く理解するために、私たちは5400億パラメータを持つ完全に活性化されたTransformer言語モデルを訓練しました。このモデルをPathways Language Model (PaLM)と呼びます。PaLMは、新しいMLシステムであるPathwaysを使用して6144個のTPU v4チップ上で訓練されました。Pathwaysは複数のTPUポッド間での非常に効率的な訓練を可能にするシステムです。私たちは数百の言語理解および生成ベンチマークにおいて最先端の少ショット学習結果を達成することにより、スケーリングによる持続的な利点を示しました。これらのタスクの中には、PaLM 540Bが多段階推論タスクの一連で微調整した最先端モデルを上回り、最近公開されたBIG-benchベンチマークにおいて平均的な人間の性能を超える革新的な性能を達成したものがあります。多くのBIG-benchタスクでは、モデルのスケールとともに性能が急激に向上する非連続的な改善が見られました。また、PaLMは多言語処理やソースコード生成にも優れた能力を持ち、これも多数のベンチマークで実証しています。私たちはバイアスと毒性に関する包括的な分析も提供し、モデルのスケールに対する訓練データの記憶化程度について研究しました。最後に、大規模言語モデルに関連する倫理的考慮事項について議論し、潜在的な緩和策についても考察します。