PaLM: Pathways를 이용한 언어 모델링의 확장

대형 언어 모델은 소수의 태스크 특화 학습 예제만으로도 다양한 자연어 작업에서 뛰어난 성능을 달성하는 소 샷 학습(few-shot learning)을 통해 그 능력을 입증하였습니다. 이러한 규모가 소 샷 학습에 미치는 영향을 더 깊이 이해하기 위해, 우리는 5400억 개의 매개변수를 가진, 밀집 활성화된 트랜스포머 언어 모델을 훈련시켰으며, 이를 패스웨이즈 언어 모델(PaLM)이라고 명명하였습니다. 우리는 새로운 ML 시스템인 패스웨이즈를 사용하여 6144개의 TPU v4 칩에서 PaLM을 훈련시켰으며, 이 시스템은 여러 TPU 포드(TPU Pods)에서 매우 효율적인 훈련을 가능하게 합니다.우리는 수백 개의 언어 이해 및 생성 벤치마크에서 최고 수준의 소 샷 학습 결과를 달성함으로써 규모 확장의 지속적인 이점을 보여주었습니다. 이 중 일부 태스크에서는 PaLM 540B가 다단계 추론 작업에 대한 최신 기술(finetuned state-of-the-art)보다 우수한 성능을 보였으며, 최근 출시된 BIG-bench 벤치마크에서도 평균 인간 성능보다 뛰어난 결과를 얻었습니다. 많은 BIG-bench 태스크들이 모델 규모에 따라 급격히 성능이 향상되는 비연속적 개선(discontinuous improvements)을 보였습니다. 즉, 우리가 가장 큰 모델로 확장할수록 성능이 급격히 상승했습니다.PaLM은 다언어 작업과 소스 코드 생성에서도 강력한 능력을 보이며, 이를 다양한 벤치마크에서 입증하였습니다. 또한 우리는 편향(bias)과 독성(toxicity)에 대한 종합적인 분석을 제공하고, 모델 규모에 따른 학습 데이터 기억(memorization)의 정도를 연구하였습니다. 마지막으로, 대형 언어 모델과 관련된 윤리적 고려 사항과 잠재적인 완화 전략에 대해 논의합니다.