vor einem Monat

Die Grenzen des Sprachmodellierens erforschen

Rafal Jozefowicz; Oriol Vinyals; Mike Schuster; Noam Shazeer; Yonghui Wu

Abstract

In dieser Arbeit untersuchen wir die jüngsten Fortschritte bei rekurrenten Neuronalen Netzen (Recurrent Neural Networks) im Bereich der großskaligen Sprachmodellierung, einer zentralen Aufgabe für das Sprachverständnis. Wir erweitern aktuelle Modelle, um zwei wesentliche Herausforderungen in diesem Bereich zu bewältigen: die Größen von Korpora und Vokabularien sowie die komplexe, langfristige Struktur von Sprache. Wir führen eine umfassende Studie über Techniken wie zeichenbasierte Faltungsneuronale Netze (character Convolutional Neural Networks) oder Langzeit-Kurzzeit-Gedächtnis (Long-Short Term Memory) durch, basierend auf dem One Billion Word Benchmark. Unser bestes einzelnes Modell verbessert den Stand der Technik signifikant, indem es die Perplexität von 51,3 auf 30,0 senkt (wobei gleichzeitig die Anzahl der Parameter um einen Faktor von 20 reduziert wird). Ein Ensemble von Modellen setzt einen neuen Rekord, indem es die Perplexität von 41,0 auf 23,7 senkt. Zudem stellen wir diese Modelle zur Verfügung, damit sie von der NLP- und ML-Gemeinschaft studiert und weiter verbessert werden können.