2달 전

훈련 데이터 부분적으로 섞기로 언어 모델 개선

Ofir Press
훈련 데이터 부분적으로 섞기로 언어 모델 개선
초록

SGD(확률적 경사 하강법)는 에폭 사이에서 훈련 데이터를 섞는 것이 필요하지만, 현재 단어 수준 언어 모델링 시스템 중 어느 것도 이를 수행하지 않고 있습니다. 훈련 데이터의 모든 문장을 단순히 섞는다면, 모델이 문장 간 의존성을 학습하는 것이 불가능해집니다. 본 연구에서는 에폭 사이에서 훈련 데이터를 부분적으로 섞는 방법을 제시합니다. 이 방법은 배치(batch)를 무작위로 만들면서 대부분의 문장 순서를 유지하도록 설계되었습니다. 이 방법은 Penn Treebank 및 WikiText-2 데이터셋에서 단어 수준 언어 모델링에 있어 새로운 최고 성능 결과를 달성하였습니다.