vor einem Monat

Eine Analyse des neuronalen Sprachmodellierens auf mehreren Skalen

Stephen Merity; Nitish Shirish Keskar; Richard Socher

Abstract

Viele der führenden Ansätze im Bereich der Sprachmodellierung führen neuartige, komplexe und spezialisierte Architekturen ein. Wir nehmen bestehende, den aktuellen Stand der Technik repräsentierende Wortsprachmodelle auf Basis von LSTMs und QRNNs und erweitern diese sowohl für größere Wörterbücher als auch für die Charakterebene. Bei geeigneter Anpassung erreichen LSTMs und QRNNs den aktuellen Stand der Technik in den Ergebnissen für Charaktersprachmodelle (Penn Treebank, enwik8) sowie für Wortsprachmodelle (WikiText-103). Diese Ergebnisse werden innerhalb von nur 12 Stunden (WikiText-103) bis zu 2 Tagen (enwik8) unter Verwendung einer einzelnen modernen GPU erzielt.