SciDeBERTa: 과학기술 문서를 위한 DeBERTa 학습 및 정보 추출 작업을 위한 토닝
딥러닝 기반의 언어 모델(LM)은 각각 2019년 4월과 7월에 SQuAD 1.1 및 GLUE 벤치마크에서 인간 기준(골드 스탠다드)을 초월했다. 2022년 기준, SuperGLUE 벤치마크 랭킹 상위 5개의 언어 모델은 모두 골드 스탠다드를 초과하고 있다. 일반적인 지식을 갖춘 사람조차도 의학이나 인공지능과 같은 전문 분야의 문제를 해결하는 데 어려움을 겪는다. 인간이 학사, 석사, 박사 과정을 통해 전문 지식을 습득하는 것과 마찬가지로, 언어 모델 또한 특정 도메인 지식을 이해할 수 있는 능력을 갖추기 위한 과정이 필요하다. 따라서 본 연구는 과학기술 분야에 특화된 사전 훈련된 언어 모델(PLM)로서 SciDeBERTa와 SciDeBERTa(CS)를 제안한다. 일반적인 코퍼스로 사전 훈련된 DeBERTa 모델을 과학기술 분야 코퍼스로 추가 사전 훈련함으로써, 이를 통해 전문성 있는 모델을 구축하였다. 실험 결과, 컴퓨터 과학 분야에서 지속적으로 사전 훈련된 SciDeBERTa(CS)는 SciERC 데이터셋의 엔터티 이름 인식 작업에서 기존의 과학기술 분야에 특화된 PLM인 SciBERT 및 S2ORC-SciBERT보다 각각 3.53%, 2.17% 높은 정확도를 달성하였다. 또한 SciERC 데이터셋의 JRE 작업에서는 기준 모델인 SCIIE보다 6.7% 높은 성능을 보였다. Genia 데이터셋에서는 S2ORC-SciBERT, SciBERT, BERT, DeBERTa, SciDeBERTa(CS)와 비교하여 SciDeBERTa가 최고의 성능을 기록하였다. 더불어, 미세 조정(fine-tuning) 과정에서 재초기화 기술과 Adam 이후 최적화 기법을 탐색함으로써 PLM의 언어 이해 능력을 검증하였다.