HyperAIHyperAI

Command Palette

Search for a command to run...

Shortformer: Bessere Sprachmodellierung durch kürzere Eingaben

Ofir Press Noah A. Smith Mike Lewis

Zusammenfassung

Die Verlängerung der Eingabefolge hat ein treibender Faktor für Fortschritte in der Sprachmodellierung mit Transformers gewesen. Wir identifizieren Bedingungen, unter denen kürzere Eingaben nicht schädlich sind, und erreichen sowohl eine Verbesserung der Perplexität als auch der Effizienz durch zwei neue Methoden, die die Eingabefolgenlänge verringern. Erstens zeigen wir, dass die initial auf kurzen Teilfolgen trainierte Modellentwicklung, gefolgt von einer Übergang zu längeren Folgen, nicht nur die Gesamttrainingszeit reduziert, sondern überraschenderweise auch die Perplexität erheblich verbessert. Zweitens zeigen wir, wie die Effizienz rekursiver Methoden in Transformers verbessert werden kann, die es Modellen ermöglichen, bei der Generierung von Folgen, die die maximale Länge überschreiten, die sie gleichzeitig verarbeiten können, auf bereits verarbeitete Token zu konditionieren. Bestehende Ansätze erfordern rechenintensive relative Positionseingaben; wir stellen stattdessen eine einfache Alternative vor, bei der absolute Positionseingaben nicht in die Worteingaben, sondern in die Queries und Keys integriert werden, was effizient bessere Ergebnisse liefert. Wir zeigen außerdem, dass auch rekursive Modelle von kürzeren Eingabefolgen profitieren. Die Kombination dieser Techniken beschleunigt das Training um den Faktor 1,65, reduziert den Speicherverbrauch und verbessert die Perplexität erheblich auf WikiText-103, ohne zusätzliche Parameter hinzuzufügen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Shortformer: Bessere Sprachmodellierung durch kürzere Eingaben | Paper | HyperAI