HyperAI초신경
6일 전

마스킹 언어 모델링으로 인코더를 사전 학습해야 하는가?

Hippolyte Gisserot-Boukhlef; Nicolas Boizard; Manuel Faysse; Duarte M. Alves; Emmanuel Malherbe; André F. T. Martins; Céline Hudelot; Pierre Colombo
마스킹 언어 모델링으로 인코더를 사전 학습해야 하는가?
초록

고품질 텍스트 표현을 학습하는 것은 다양한 NLP 작업의 기반이 됩니다. 인코더 사전학습은 전통적으로 마스킹 언어 모델링(Masked Language Modeling, MLM)에 의존해 왔지만, 최근 연구 결과는 인과적 언어 모델링(Causal Language Modeling, CLM)으로 사전학습된 디코더 모델이 인코더로 재활용될 수 있으며, 종종 전통적인 인코더보다 텍스트 표현 벤치마크에서 우수한 성능을 보이는 것으로 나타났습니다. 그러나 이러한 성능 향상이 CLM 목표의 본질적인 장점 때문인지, 아니면 모델 크기와 데이터 규모 등의 혼동 요인 때문인지 명확하지 않습니다. 이 논문에서는 대규모 사전학습 축소 실험을 통해 이 질문을 다루며, 2억 1천만 개에서 10억 개 매개변수를 가진 총 30개의 모델을 학습하고 15,000회 이상의 미세조정(fine-tuning) 및 평가 실행을 수행했습니다. 우리는 MLM으로 학습할 때 일반적으로 텍스트 표현 작업에서 더 나은 성능을 얻는다는 것을 발견했지만, CLM으로 학습된 모델은 데이터 효율성이 뛰어나고 미세조정 안정성이 개선됨을 확인했습니다. 이러한 결과를 바탕으로, CLM과随后的MLM(两阶段训练策略)在固定计算训练预算下实现最优性能的实验结果进行了展示。此外,我们证明了当从现有的LLM生态系统中容易获得的预训练CLM模型初始化时,这种策略变得更加有吸引力,减少了训练顶级编码器模型所需的计算负担。我们将在 https://hf.co/MLMvsCLM 发布所有项目工件,以促进进一步的研究。为了确保翻译更加自然流畅,我将对最后一段进行微调:이러한 결과를 바탕으로, CLM과 subsequently applying MLM (두 단계 학습 전략)이 고정된 계산 학습 예산 하에서 최적의 성능을 달성한다는 것을 실험적으로 보였습니다. 또한, 이미 존재하는 LLM 생태계에서 쉽게 얻을 수 있는 사전학습된 CLM 모델로부터 초기화할 때, 이 전략이 더욱 매력적이 되며 최고급 인코더 모델을 학습하기 위한 계산 부담을 줄일 수 있음을 입증했습니다. 모든 프로젝트 아티팩트는 https://hf.co/MLMvsCLM 에서 공개하여 추가 연구를 촉진합니다.