2달 전

훈련 데이터 부분적으로 섞기로 언어 모델 개선

Ofir Press

초록

SGD(확률적 경사 하강법)는 에폭 사이에서 훈련 데이터를 섞는 것이 필요하지만, 현재 단어 수준 언어 모델링 시스템 중 어느 것도 이를 수행하지 않고 있습니다. 훈련 데이터의 모든 문장을 단순히 섞는다면, 모델이 문장 간 의존성을 학습하는 것이 불가능해집니다. 본 연구에서는 에폭 사이에서 훈련 데이터를 부분적으로 섞는 방법을 제시합니다. 이 방법은 배치(batch)를 무작위로 만들면서 대부분의 문장 순서를 유지하도록 설계되었습니다. 이 방법은 Penn Treebank 및 WikiText-2 데이터셋에서 단어 수준 언어 모델링에 있어 새로운 최고 성능 결과를 달성하였습니다.