3달 전
간단하고 효과적인 마스킹된 확산 언어 모델
Subham Sekhar Sahoo, Marianne Arriola, Yair Schiff, Aaron Gokaslan, Edgar Marroquin, Justin T Chiu, Alexander Rush, Volodymyr Kuleshov

초록
확산 모델은 고품질 이미지 생성에 뛰어나지만, 기존 연구에서는 언어 모델링에서 확산 모델과 자기회귀(AR) 방법 사이에 큰 성능 격차가 존재한다고 보고하였다. 본 연구에서는 단순한 마스킹된 이산 확산 방식이 기존에 예상된 것보다 더 뛰어난 성능을 발휘함을 보여준다. 우리는 마스킹된 확산 모델의 성능을 향상시키는 효과적인 학습 전략을 적용하고, 추가적인 성능 향상을 가져오는 단순화된 라오-블랙웰화(Rao-Blackwellized) 목적함수를 도출하였다. 본 목적함수는 간단한 형태를 지니며, 고전적인 마스킹된 언어 모델링 손실들의 혼합으로 구성되어 있으며, 효율적인 샘플러를 지원하는 인코더 중심 언어 모델을 학습하는 데 사용할 수 있다. 특히, 기존 언어 모델과 유사하게 임의의 길이의 텍스트를 반자기회귀적으로 생성할 수 있는 샘플러도 가능하다. 언어 모델링 벤치마크에서 현대적인 엔지니어링 기법을 활용해 훈련된 다양한 마스킹 확산 모델은 확산 모델 중 최고의 성능을 기록하며, AR 모델의 퍼플렉서티(perplexity)에 근접함을 보였다. 코드는 다음 링크에서 공개된다: https://github.com/kuleshov-group/mdlm