Zum Stand der Kunst der Bewertung in neuronalen Sprachmodellen

Fortlaufende Innovationen in den Architekturen von rekurrenten Neuronalen Netzen haben eine stetige Flut scheinbarer Spitzenleistungen bei Benchmarks für Sprachmodelle zur Folge gehabt. Diese wurden jedoch unter Verwendung unterschiedlicher Codebasen und begrenzter Rechenressourcen evaluiert, was unbeobachtete Quellen experimenteller Variation darstellt. Wir bewerten mehrere gängige Architekturen und Regularisierungsmethoden mit groß angelegtem automatischem Black-Box-Hyperparameter-Tuning neu und gelangen zu dem überraschenden Schluss, dass standardisierte LSTM-Architekturen, wenn sie angemessen regularisiert werden, neueren Modellen überlegen sind. Wir etablieren einen neuen Stand der Technik auf den Korpora des Penn Treebank und Wikitext-2 sowie starke Baseline-Modelle auf dem Datensatz des Hutter Prize (Hutter Preis).