HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung

Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung

Abstract

Multi-Token-Vorhersage (MTP) wurde als Hilfsziel vorgeschlagen, um die Vorhersage des nächsten Tokens (NTP) im Trainingsprozess von Sprachmodellen zu verbessern, zeigt jedoch widersprüchliche Verbesserungen und erzielt unter den Standard-NLP-Benchmarks schlechtere Ergebnisse. Wir argumentieren, dass die exakte Vorhersage zukünftiger Tokens als Hilfsverlust zu anspruchsvoll ist. Stattdessen schlagen wir die Vorhersage der Token-Reihenfolge (TOP) vor, bei der Modelle mittels eines Learning-to-Rank-Verlustes trainiert werden, um kommende Tokens nach ihrer Nähe zu ordnen. Im Gegensatz zu MTP, das mehrere Transformer-Schichten erfordert, benötigt TOP lediglich eine zusätzliche Unembedding-Schicht. Wir prätrainieren Modelle mit 340 Mio., 1,8 Mrd. und 7 Mrd. Parametern unter Verwendung der Ziele NTP, MTP und TOP. Ergebnisse auf acht Standard-NLP-Benchmarks zeigen, dass TOP selbst bei großen Modellgrößen insgesamt sowohl NTP als auch MTP übertrifft. Unser Code ist unter https://github.com/zaydzuhri/token-order-prediction verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung | Forschungsarbeiten | HyperAI