vor 2 Monaten

Teilweise Umstellung der Trainingsdaten zur Verbesserung von Sprachmodellen

Ofir Press

Abstract

Obwohl SGD (Stochastic Gradient Descent) das Durchmischen der Trainingsdaten zwischen den Epochen erfordert, tun dies aktuell keiner der wortbasierten Sprachmodellierungssysteme. Ein naives Durchmischen aller Sätze in den Trainingsdaten würde es dem Modell nicht ermöglichen, intersatzliche Abhängigkeiten zu lernen. In dieser Arbeit stellen wir eine Methode vor, die die Trainingsdaten zwischen den Epochen teilweise durchmischt. Diese Methode sorgt dafür, dass jeder Batch zufällig ist, während sie die meisten Satzreihenfolgen beibehält. Sie erzielt neue Stand-of-the-Art-Ergebnisse bei der wortbasierten Sprachmodellierung sowohl auf den Penn Treebank- als auch auf den WikiText-2-Datensätzen.