Falcon 시리즈의 오픈 언어 모델

우리는 Falcon 시리즈를 소개합니다: 7B, 40B, 그리고 180B 매개변수를 가진 인과적 디코더 모델로, 주로 웹 데이터에서 수집된 다양한 고품질 말뭉치에 대해 훈련되었습니다. 가장 큰 모델인 Falcon-180B는 3조 5천억 개 이상의 텍스트 토큰으로 훈련되었으며, 이는 공개적으로 문서화된 사전 훈련 중 가장 큰 규모입니다. Falcon-180B는 PaLM이나 Chinchilla와 같은 모델을 크게 능가하며, LLaMA 2나 Inflection-1과 같은 동시기에 개발된 모델보다도 우수한 성능을 보입니다. 또한 사전 훈련 및 추론 비용이 줄어든 상태에서 PaLM-2-Large의 성능에 근접하여, 우리 지식范围内에서는 GPT-4와 PaLM-2-Large와 함께 세계 최고의 언어 모델 중 하나로 평가됩니다.우리는 상세한 평가 결과와 Falcon을 사전 훈련하기 위해 사용한 방법 및 맞춤형 도구에 대한 심층 분석을 보고합니다. 특히, 최대 4,096개의 A100 GPU를 사용하여 AWS 클라우드 인프라스트럭처에서 제한적인 인터커넥트 환경에서도 효율적으로 사전 훈련할 수 있는 맞춤형 분산 학습 코드베이스에 대해 설명합니다. 우리는 웹 데이터셋의 600B 토큰 추출본을 공개하며, Falcon-7/40/180B 모델들을 오픈 사이언스를 촉진하고 대규모 언어 모델의 오픈 생태계 발전을 가속화하기 위해 자유롭게 사용할 수 있는 라이선스 하에 배포합니다.注释:- "範圍内" (범위 내) 是中文特有的表达,韩文中可以直接省略,因此在最终版本中删除了这一部分。修正后的翻译如下:우리는 Falcon 시리즈를 소개합니다: 7B, 40B, 그리고 180B 매개변수를 가진 인과적 디코더 모델로, 주로 웹 데이터에서 수집된 다양한 고품질 말뭉치에 대해 훈련되었습니다. 가장 큰 모델인 Falcon-180B는 3조 5천억 개 이상의 텍스트 토큰으로 훈련되었으며, 이는 공개적으로 문서화된 사전 훈련 중 가장 큰 규모입니다. Falcon-180B는 PaLM이나 Chinchilla와 같은 모델을 크게 능가하며, LLaMA 2나 Inflection-1과 같은 동시기에 개발된 모델보다도 우수한 성능을 보입니다. 또한 사전 훈련 및 추론 비용이 줄어든 상태에서 PaLM-2-Large의 성능에 근접하여, 우리 지식에 따르면 GPT-4와 PaLM-2-Large와 함께 세계 최고의 언어 모델 중 하나로 평가됩니다.우리는 상세한 평가 결과와 Falcon을 사전 훈련하기 위해 사용한 방법 및 맞춤형 도구에 대한 심층 분석을 보고합니다. 특히, 최대 4,096개의 A100 GPU를 사용하여 AWS 클라우드 인프라스트럭처에서 제한적인 인터커넥트 환경에서도 효율적으로 사전 훈련할 수 있는 맞춤형 분산 학습 코드베이스에 대해 설명합니다. 우리는 웹 데이터셋의 600B 토큰 추출본을 공개하며, Falcon-7/40/180B 모델들을 오픈 사이언스를 촉진하고 대규모 언어 모델의 오픈 생태계 발전을 가속화하기 위해 자유롭게 사용할 수 있는 라이선스 하에 배포합니다.