16일 전

학계 예산으로 BERT 훈련하기

Peter Izsak, Moshe Berchansky, Omer Levy
학계 예산으로 BERT 훈련하기
초록

대규모 언어 모델(BERT 등)은 자연어 처리(NLP) 분야에서 널리 사용되고 있지만, 이러한 모델을 사전 훈련하는 것은 자금이 풍부한 일부 산업 연구소만이 감당할 수 있는 고비용 작업으로 간주된다. 그렇다면 보다 제한된 예산으로 이러한 모델을 어떻게 훈련할 수 있을까? 우리는 단 하나의 저사양 딥러닝 서버를 사용하여 24시간 내에 마스킹 언어 모델을 사전 훈련할 수 있는 방법을 제시한다. 소프트웨어 최적화, 설계 선택, 하이퍼파라미터 조정의 조합을 통해, 원래 사전 훈련 비용의 일부분으로 BERT-base와 비슷한 성능을 가진 모델을 생성할 수 있음을 실험적으로 입증하였다.

학계 예산으로 BERT 훈련하기 | 최신 연구 논문 | HyperAI초신경