2달 전

OPT: 오픈 사전 훈련된 트랜스포머 언어 모델

Susan Zhang; Stephen Roller; Naman Goyal; Mikel Artetxe; Moya Chen; Shuohui Chen; Christopher Dewan; Mona Diab; Xian Li; Xi Victoria Lin; Todor Mihaylov; Myle Ott; Sam Shleifer; Kurt Shuster; Daniel Simig; Punit Singh Koura; Anjali Sridhar; Tianlu Wang; Luke Zettlemoyer
OPT: 오픈 사전 훈련된 트랜스포머 언어 모델
초록

대규모 언어 모델은 종종 수십만 시간의 컴퓨팅 시간 동안 훈련되며, 제로샷 및 소수 샷 학습에서 뛰어난 능력을 보여주고 있습니다. 이러한 모델들은 상당한 자본 없이는 재현하기 어렵습니다. API를 통해 이용 가능한 몇몇 모델들조차도 전체 모델 가중치에 대한 접근을 허용하지 않아 연구가 어려워집니다. 우리는 이 문제를 해결하기 위해 오픈 프리트레이닝 트랜스포머즈 (OPT)를 소개합니다. OPT는 125M부터 175B 파라미터까지 다양한 디코더 전용 프리트레이닝 트랜스포머들을 포함하며, 관심 있는 연구자들과 완전하고 책임감 있게 공유하려고 합니다. 우리는 OPT-175B가 GPT-3와 유사한 성능을 보임을 입증하였으며, 개발 과정에서 발생하는 탄소 발자국이 GPT-3의 1/7에 불과함을 보여줍니다. 또한, 우리가 직면한 인프라스트럭처 관련 도전 과제들을 상세히 기록한 로그북과 모든 공개된 모델들을 실험할 수 있는 코드를 함께 제공합니다.

OPT: 오픈 사전 훈련된 트랜스포머 언어 모델 | 최신 연구 논문 | HyperAI초신경