vor 9 Tagen

Shortformer: Bessere Sprachmodellierung durch kürzere Eingaben

Ofir Press, Noah A. Smith, Mike Lewis

Abstract

Die Verlängerung der Eingabefolge hat ein treibender Faktor für Fortschritte in der Sprachmodellierung mit Transformers gewesen. Wir identifizieren Bedingungen, unter denen kürzere Eingaben nicht schädlich sind, und erreichen sowohl eine Verbesserung der Perplexität als auch der Effizienz durch zwei neue Methoden, die die Eingabefolgenlänge verringern. Erstens zeigen wir, dass die initial auf kurzen Teilfolgen trainierte Modellentwicklung, gefolgt von einer Übergang zu längeren Folgen, nicht nur die Gesamttrainingszeit reduziert, sondern überraschenderweise auch die Perplexität erheblich verbessert. Zweitens zeigen wir, wie die Effizienz rekursiver Methoden in Transformers verbessert werden kann, die es Modellen ermöglichen, bei der Generierung von Folgen, die die maximale Länge überschreiten, die sie gleichzeitig verarbeiten können, auf bereits verarbeitete Token zu konditionieren. Bestehende Ansätze erfordern rechenintensive relative Positionseingaben; wir stellen stattdessen eine einfache Alternative vor, bei der absolute Positionseingaben nicht in die Worteingaben, sondern in die Queries und Keys integriert werden, was effizient bessere Ergebnisse liefert. Wir zeigen außerdem, dass auch rekursive Modelle von kürzeren Eingabefolgen profitieren. Die Kombination dieser Techniken beschleunigt das Training um den Faktor 1,65, reduziert den Speicherverbrauch und verbessert die Perplexität erheblich auf WikiText-103, ohne zusätzliche Parameter hinzuzufügen.