HyperAIHyperAI
vor einem Monat

Sprachmodellierung mit geregten Faltungsnetzen

Yann N. Dauphin; Angela Fan; Michael Auli; David Grangier
Sprachmodellierung mit geregten Faltungsnetzen
Abstract

Der vorherrschende Ansatz für Sprachmodelle bislang basiert auf rekurrenten neuronalen Netzen. Ihr Erfolg bei dieser Aufgabe wird oft mit ihrer Fähigkeit in Verbindung gebracht, unbegrenzten Kontext zu erfassen. In dieser Arbeit entwickeln wir einen Ansatz mit endlichem Kontext durch gestapelte Faltungen, der effizienter sein kann, da er die Parallelisierung über sequentielle Token ermöglicht. Wir schlagen ein neuartiges vereinfachtes Gating-Mechanismus vor, der die Ergebnisse von Oord et al. (2016) übertrifft, und untersuchen den Einfluss entscheidender architektonischer Entscheidungen. Der vorgeschlagene Ansatz erreicht den aktuellen Stand der Technik im WikiText-103-Benchmark, obwohl er langfristige Abhängigkeiten aufweist, sowie wettbewerbsfähige Ergebnisse im Google Billion Words-Benchmark. Unser Modell reduziert die Latenz zur Bewertung eines Satzes um eine Größenordnung im Vergleich zu einem rekurrenten Baseline-Modell. Nach unserem Wissen ist dies das erste Mal, dass ein nicht-rekurrenter Ansatz in diesen großen Sprachaufgaben mit starken rekurrenten Modellen mithalten kann.