2ヶ月前
言語モデルのスケーリング:ゴフェーの訓練から得られる方法、分析、および洞察
Jack W. Rae; Sebastian Borgeaud; Trevor Cai; Katie Millican; Jordan Hoffmann; Francis Song; John Aslanides; Sarah Henderson; Roman Ring; Susannah Young; Eliza Rutherford; Tom Hennigan; Jacob Menick; Albin Cassirer; Richard Powell; George van den Driessche; Lisa Anne Hendricks; Maribeth Rauh; Po-Sen Huang; Amelia Glaese; Johannes Welbl; Sumanth Dathathri; Saffron Huang; Jonathan Uesato; John Mellor; Irina Higgins; Antonia Creswell; Nat McAleese; Amy Wu; Erich Elsen; Siddhant Jayakumar; Elena Buchatskaya; David Budden; Esme Sutherland; Karen Simonyan; Michela Paganini; Laurent Sifre; Lena Martens; Xiang Lorraine Li; Adhiguna Kuncoro; Aida Nematzadeh; Elena Gribovskaya; Domenic Donato; Angeliki Lazaridou; Arthur Mensch; Jean-Baptiste Lespiau; Maria Tsimpoukelli; Nikolai Grigorev; Doug Fritz; Thibault Sottiaux; Mantas Pajarskas; Toby Pohlen; Zhitao Gong; Daniel Toyama; Cyprien de Masson d'Autume; Yujia Li; Tayfun Terzi; Vladimir Mikulik; Igor Babuschkin; Aidan Clark; Diego de Las Casas; Aurelia Guy; Chris Jones; James Bradbury; Matthew Johnson; Blake Hechtman; Laura Weidinger; Iason Gabriel; William Isaac; Ed Lockhart; Simon Osindero; Laura Rimell; Chris Dyer; Oriol Vinyals; Kareem Ayoub; Jeff Stanway; Lorrayne Bennett; Demis Hassabis; Koray Kavukcuoglu; Geoffrey Irving

要約
言語モデリングは、大量の書かれた人間の知識を活用することで、世界をより正確に予測し理解するための知能型通信システムへの一歩を提供します。本論文では、数千万パラメータから280億パラメータのモデルであるGopherまで、幅広いスケールを持つTransformerベースの言語モデルの性能を分析します。これらのモデルは152種類の多様なタスクで評価され、大多数において最先端の性能を達成しています。スケールによる利点は、読解力、事実確認、有害な言葉の識別などの分野で最大ですが、論理的および数学的な推論ではそれほど大きな恩恵が見られません。私たちは訓練データセットとモデルの挙動について包括的な分析を行い、モデルスケールとバイアスや有害性との関連性もカバーしています。最後に、言語モデルがAIセキュリティにどのように応用されるか、そして下流での危害を軽減する方法について議論します。