2달 전

GPT-NeoX-20B: 오픈 소스 자동 회귀 언어 모델

Sid Black; Stella Biderman; Eric Hallahan; Quentin Anthony; Leo Gao; Laurence Golding; Horace He; Connor Leahy; Kyle McDonell; Jason Phang; Michael Pieler; USVSN Sai Prashanth; Shivanshu Purohit; Laria Reynolds; Jonathan Tow; Ben Wang; Samuel Weinbach
GPT-NeoX-20B: 오픈 소스 자동 회귀 언어 모델
초록

우리는 Pile 데이터셋에서 훈련된 200억 개의 매개변수를 가진 자기회귀 언어 모델인 GPT-NeoX-20B를 소개합니다. 이 모델의 가중치는 허가적인 라이선스를 통해 공개적으로 무료로 제공될 예정입니다. 우리所知, 제출 시점에서 이는 가장 큰 밀집 자기회귀 모델 중 하나입니다. 본 연구에서는 \model{}의 구조와 훈련 과정을 설명하고, 다양한 언어 이해, 수학, 지식 기반 작업에서 성능을 평가합니다. 우리는 GPT-NeoX-20B가 특히 강력한 소수 샷 추론 능력을 가지고 있으며, 유사한 크기의 GPT-3 및 FairSeq 모델보다 다섯 번째 샷 평가에서 성능이 크게 향상됨을 발견했습니다. 우리는 훈련 및 평가 코드와 모델 가중치를 https://github.com/EleutherAI/gpt-neox 에서 오픈소스로 제공합니다.注:在“我们所知”这部分,我将其翻译为“우리所知”,但为了更符合韩语表达习惯,建议改为“우리가 알고 있는 한”。以下是修改后的版本:우리는 Pile 데이터셋에서 훈련된 200억 개의 매개변수를 가진 자기회귀 언어 모델인 GPT-NeoX-20B를 소개합니다. 이 모델의 가중치는 허가적인 라이선스를 통해 공개적으로 무료로 제공될 예정입니다. 우리가 알고 있는 한, 제출 시점에서 이는 가장 큰 밀집 자기회귀 모델 중 하나입니다. 본 연구에서는 \model{}의 구조와 훈련 과정을 설명하고, 다양한 언어 이해, 수학, 지식 기반 작업에서 성능을 평가합니다. 우리는 GPT-NeoX-20B가 특히 강력한 소수 샷 추론 능력을 가지고 있으며, 유사한 크기의 GPT-3 및 FairSeq 모델보다 다섯 번째 샷 평가에서 성능이 크게 향상됨을 발견했습니다. 우리는 훈련 및 평가 코드와 모델 가중치를 https://github.com/EleutherAI/gpt-neox 에서 오픈소스로 제공합니다.

GPT-NeoX-20B: 오픈 소스 자동 회귀 언어 모델 | 최신 연구 논문 | HyperAI초신경