2달 전

PaLM: Pathways를 이용한 언어 모델링의 확장

Aakanksha Chowdhery; Sharan Narang; Jacob Devlin; Maarten Bosma; Gaurav Mishra; Adam Roberts; Paul Barham; Hyung Won Chung; Charles Sutton; Sebastian Gehrmann; Parker Schuh; Kensen Shi; Sasha Tsvyashchenko; Joshua Maynez; Abhishek Rao; Parker Barnes; Yi Tay; Noam Shazeer; Vinodkumar Prabhakaran; Emily Reif; Nan Du; Ben Hutchinson; Reiner Pope; James Bradbury; Jacob Austin; Michael Isard; Guy Gur-Ari; Pengcheng Yin; Toju Duke; Anselm Levskaya; Sanjay Ghemawat; Sunipa Dev; Henryk Michalewski; Xavier Garcia; Vedant Misra; Kevin Robinson; Liam Fedus; Denny Zhou; Daphne Ippolito; David Luan; Hyeontaek Lim; Barret Zoph; Alexander Spiridonov; Ryan Sepassi; David Dohan; Shivani Agrawal; Mark Omernick; Andrew M. Dai; Thanumalayan Sankaranarayana Pillai; Marie Pellat; Aitor Lewkowycz; Erica Moreira; Rewon Child; Oleksandr Polozov; Katherine Lee; Zongwei Zhou; Xuezhi Wang; Brennan Saeta; Mark Diaz; Orhan Firat; Michele Catasta; Jason Wei; Kathy Meier-Hellstern; Douglas Eck; Jeff Dean; Slav Petrov; Noah Fiedel
PaLM: Pathways를 이용한 언어 모델링의 확장
초록

대형 언어 모델은 소수의 태스크 특화 학습 예제만으로도 다양한 자연어 작업에서 뛰어난 성능을 달성하는 소 샷 학습(few-shot learning)을 통해 그 능력을 입증하였습니다. 이러한 규모가 소 샷 학습에 미치는 영향을 더 깊이 이해하기 위해, 우리는 5400억 개의 매개변수를 가진, 밀집 활성화된 트랜스포머 언어 모델을 훈련시켰으며, 이를 패스웨이즈 언어 모델(PaLM)이라고 명명하였습니다. 우리는 새로운 ML 시스템인 패스웨이즈를 사용하여 6144개의 TPU v4 칩에서 PaLM을 훈련시켰으며, 이 시스템은 여러 TPU 포드(TPU Pods)에서 매우 효율적인 훈련을 가능하게 합니다.우리는 수백 개의 언어 이해 및 생성 벤치마크에서 최고 수준의 소 샷 학습 결과를 달성함으로써 규모 확장의 지속적인 이점을 보여주었습니다. 이 중 일부 태스크에서는 PaLM 540B가 다단계 추론 작업에 대한 최신 기술(finetuned state-of-the-art)보다 우수한 성능을 보였으며, 최근 출시된 BIG-bench 벤치마크에서도 평균 인간 성능보다 뛰어난 결과를 얻었습니다. 많은 BIG-bench 태스크들이 모델 규모에 따라 급격히 성능이 향상되는 비연속적 개선(discontinuous improvements)을 보였습니다. 즉, 우리가 가장 큰 모델로 확장할수록 성능이 급격히 상승했습니다.PaLM은 다언어 작업과 소스 코드 생성에서도 강력한 능력을 보이며, 이를 다양한 벤치마크에서 입증하였습니다. 또한 우리는 편향(bias)과 독성(toxicity)에 대한 종합적인 분석을 제공하고, 모델 규모에 따른 학습 데이터 기억(memorization)의 정도를 연구하였습니다. 마지막으로, 대형 언어 모델과 관련된 윤리적 고려 사항과 잠재적인 완화 전략에 대해 논의합니다.