2달 전

Galactica: 과학을 위한 대형 언어 모델

Ross Taylor; Marcin Kardas; Guillem Cucurull; Thomas Scialom; Anthony Hartshorn; Elvis Saravia; Andrew Poulton; Viktor Kerkez; Robert Stojnic
Galactica: 과학을 위한 대형 언어 모델
초록

정보 과부하가 과학적 진보의 주요 장애물로 작용하고 있습니다. 과학 문헌과 데이터의 폭발적인 증가는 방대한 정보 속에서 유용한 통찰력을 발견하는 것이 점점 더 어려워지고 있습니다. 현재 과학 지식은 검색 엔진을 통해 접근되지만, 이들만으로는 과학 지식을 체계적으로 정리할 수 없습니다. 본 논문에서는 갈라ctica(Galactica): 과학 지식을 저장, 결합하고 추론할 수 있는 대형 언어 모델을 소개합니다. 우리는 논문, 참고 자료, 지식 기반 및 다양한 출처를 포함한 대규모 과학 코퍼스에서 학습하였습니다. 우리는 다양한 과학적 작업에서 기존 모델들을 능가하는 성능을 보여주었습니다. LaTeX 방정식 등 기술적 지식 탐지에서 갈라ctica는 최신 GPT-3보다 68.2% 대 49.0%로 우수한 성능을 나타냈습니다. 또한 갈라ctica는 수학적 MMLU에서 ChinChilla보다 41.3% 대 35.7%, MATH 작업에서는 PaLM 540B보다 20.4% 대 8.8%로 우수한 성능을 보였습니다. 이 모델은 PubMedQA와 MedMCQA 개발 세트에서 각각 77.6%와 52.9%의 새로운 최고 성능(SOTA)를 달성하였습니다. 일반 코퍼스에서 학습되지 않았음에도 불구하고, 갈라ctica는 BIG-bench에서 BLOOM과 OPT-175B를 능가하는 성능을 보였습니다. 우리는 이러한 결과들이 언어 모델이 과학에 대한 새로운 인터페이스로서의 잠재력을 입증한다고 믿습니다. 이를 통해 과학 공동체에 혜택을 주기 위해 모델의 오픈 소스를 공개합니다.