
초록
대규모 언어 모델(BERT 등)은 자연어 처리(NLP) 분야에서 널리 사용되고 있지만, 이러한 모델을 사전 훈련하는 것은 자금이 풍부한 일부 산업 연구소만이 감당할 수 있는 고비용 작업으로 간주된다. 그렇다면 보다 제한된 예산으로 이러한 모델을 어떻게 훈련할 수 있을까? 우리는 단 하나의 저사양 딥러닝 서버를 사용하여 24시간 내에 마스킹 언어 모델을 사전 훈련할 수 있는 방법을 제시한다. 소프트웨어 최적화, 설계 선택, 하이퍼파라미터 조정의 조합을 통해, 원래 사전 훈련 비용의 일부분으로 BERT-base와 비슷한 성능을 가진 모델을 생성할 수 있음을 실험적으로 입증하였다.