2달 전

컴퓨트 최적화된 대형 언어 모델 훈련

Jordan Hoffmann; Sebastian Borgeaud; Arthur Mensch; Elena Buchatskaya; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Aurelia Guy; Simon Osindero; Karen Simonyan; Erich Elsen; Jack W. Rae; Oriol Vinyals; Laurent Sifre
컴퓨트 최적화된 대형 언어 모델 훈련
초록

우리는 주어진 컴퓨팅 예산 하에서 트랜스포머 언어 모델을 훈련시키기 위한 최적의 모델 크기와 토큰 수를 조사합니다. 최근에는 언어 모델의 규모를 확장하는 데 초점을 맞추면서 훈련 데이터의 양은 일정하게 유지하는 경향이 있어, 현재 대형 언어 모델들이 크게 미훈련된 상태임을 발견했습니다. 7,000만 개에서 160억 개 이상의 매개변수를 가진 400여 개의 언어 모델을 5억에서 500억 개의 토큰으로 훈련시킨 결과, 컴퓨팅 최적화 훈련을 위해서는 모델 크기와 훈련 토큰 수가 동일한 비율로 확장되어야 함을 확인했습니다: 모델 크기가 두 배로 증가할 때마다 훈련 토큰 수도 두 배로 늘려야 합니다.이 가설을 검증하기 위해, Gopher와 같은 컴퓨팅 예산을 사용하면서도 70B 매개변수와 4배 더 많은 데이터를 활용한 예측된 컴퓨팅 최적화 모델인 ChinChilla를 훈련시켰습니다. ChinChilla는 다양한 다운스트림 평가 작업에서 Gopher(280B), GPT-3(175B), Jurassic-1(178B), 그리고 Megatron-Turing NLG(530B)보다 일관성 있고 상당히 우수한 성능을 보였습니다. 이는 ChinChilla가 미세조정(fine-tuning)과 추론(inference)에 필요한 컴퓨팅 자원이 현저히 적다는 것을 의미하며, 다운스트림 사용을 크게 용이하게 합니다.특히, ChinChilla는 MMLU 벤치마크에서 평균 정확도 67.5%를 달성하여 기존 Gopher보다 7% 이상 높은 성능을 보였습니다.

컴퓨트 최적화된 대형 언어 모델 훈련 | 최신 연구 논문 | HyperAI초신경