2달 전

언어 모델 확장: Gopher 훈련에서 얻은 방법, 분석 및 통찰력

Jack W. Rae; Sebastian Borgeaud; Trevor Cai; Katie Millican; Jordan Hoffmann; Francis Song; John Aslanides; Sarah Henderson; Roman Ring; Susannah Young; Eliza Rutherford; Tom Hennigan; Jacob Menick; Albin Cassirer; Richard Powell; George van den Driessche; Lisa Anne Hendricks; Maribeth Rauh; Po-Sen Huang; Amelia Glaese; Johannes Welbl; Sumanth Dathathri; Saffron Huang; Jonathan Uesato; John Mellor; Irina Higgins; Antonia Creswell; Nat McAleese; Amy Wu; Erich Elsen; Siddhant Jayakumar; Elena Buchatskaya; David Budden; Esme Sutherland; Karen Simonyan; Michela Paganini; Laurent Sifre; Lena Martens; Xiang Lorraine Li; Adhiguna Kuncoro; Aida Nematzadeh; Elena Gribovskaya; Domenic Donato; Angeliki Lazaridou; Arthur Mensch; Jean-Baptiste Lespiau; Maria Tsimpoukelli; Nikolai Grigorev; Doug Fritz; Thibault Sottiaux; Mantas Pajarskas; Toby Pohlen; Zhitao Gong; Daniel Toyama; Cyprien de Masson d'Autume; Yujia Li; Tayfun Terzi; Vladimir Mikulik; Igor Babuschkin; Aidan Clark; Diego de Las Casas; Aurelia Guy; Chris Jones; James Bradbury; Matthew Johnson; Blake Hechtman; Laura Weidinger; Iason Gabriel; William Isaac; Ed Lockhart; Simon Osindero; Laura Rimell; Chris Dyer; Oriol Vinyals; Kareem Ayoub; Jeff Stanway; Lorrayne Bennett; Demis Hassabis; Koray Kavukcuoglu; Geoffrey Irving
언어 모델 확장: Gopher 훈련에서 얻은 방법, 분석 및 통찰력
초록

언어 모델링은 대규모의 서면 인간 지식 저장소를 활용하여 세계를 더 잘 예측하고 이해함으로써 지능형 통신 시스템에 한 걸음을 내딛게 합니다. 본 논문에서는 트랜스포머 기반 언어 모델의 성능을 다양한 모델 규모에서 분석합니다. 이는 수천만 개의 매개변수를 가진 모델부터 280억 개의 매개변수를 가진 '고퍼(Gopher)'라는 모델까지 포함됩니다. 이러한 모델들은 152개의 다양한 작업에서 평가되며, 대부분의 작업에서 최첨단 성능을 달성하였습니다. 규모 확대로 인한 이점은 독해, 사실 확인, 유해 언어 식별 등에서 가장 크게 나타났지만, 논리적 및 수학적 추론에는 상대적으로 적은 이점이 있었습니다. 우리는 훈련 데이터셋과 모델의 행동에 대한 종합적인 분석을 제공하며, 이는 모델 규모와 편향 및 유해성의 교차점을 다룹니다. 마지막으로, 언어 모델이 AI 안전성에 어떻게 적용될 수 있는지와 하류 피해 감소 방안에 대해 논의합니다.