
초록
과학 분야의 자연어 처리(NLP) 작업을 위한 대규모 주석 데이터를 획득하는 것은 어려우며 비용이 많이 듭니다. 이 문제를 해결하기 위해 BERT(Devlin 등, 2018) 기반의 사전 학습 언어 모델인 SciBERT를 공개합니다. SciBERT는 다양한 과학 분야의 출판물로 구성된 대규모 다중 영역 코퍼스에서 감독되지 않은 사전 학습을 활용하여 하류 과학 NLP 작업의 성능을 향상시킵니다. 우리는 시퀀스 태깅, 문장 분류 및 의존성 구문 분석 등을 포함한 여러 과학 분야에서 유래한 데이터셋으로 구성된 작업 모음에서 평가를 수행하였습니다. BERT와 비교하여 통계적으로 유의미한 개선을 보였으며, 이러한 작업 중 몇 가지에서는 새로운 최고 수준의 결과를 달성하였습니다. 코드와 사전 학습 모델은 https://github.com/allenai/scibert/에서 이용 가능합니다.