Command Palette
Search for a command to run...
Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung
Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

Abstract
Multi-Token-Vorhersage (MTP) wurde als Hilfsziel vorgeschlagen, um die Vorhersage des nächsten Tokens (NTP) im Trainingsprozess von Sprachmodellen zu verbessern, zeigt jedoch widersprüchliche Verbesserungen und erzielt unter den Standard-NLP-Benchmarks schlechtere Ergebnisse. Wir argumentieren, dass die exakte Vorhersage zukünftiger Tokens als Hilfsverlust zu anspruchsvoll ist. Stattdessen schlagen wir die Vorhersage der Token-Reihenfolge (TOP) vor, bei der Modelle mittels eines Learning-to-Rank-Verlustes trainiert werden, um kommende Tokens nach ihrer Nähe zu ordnen. Im Gegensatz zu MTP, das mehrere Transformer-Schichten erfordert, benötigt TOP lediglich eine zusätzliche Unembedding-Schicht. Wir prätrainieren Modelle mit 340 Mio., 1,8 Mrd. und 7 Mrd. Parametern unter Verwendung der Ziele NTP, MTP und TOP. Ergebnisse auf acht Standard-NLP-Benchmarks zeigen, dass TOP selbst bei großen Modellgrößen insgesamt sowohl NTP als auch MTP übertrifft. Unser Code ist unter https://github.com/zaydzuhri/token-order-prediction verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.