Command Palette
Search for a command to run...
Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung
Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung
Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji
Zusammenfassung
Multi-Token-Vorhersage (MTP) wurde als Hilfsziel vorgeschlagen, um die Vorhersage des nächsten Tokens (NTP) im Trainingsprozess von Sprachmodellen zu verbessern, zeigt jedoch widersprüchliche Verbesserungen und erzielt unter den Standard-NLP-Benchmarks schlechtere Ergebnisse. Wir argumentieren, dass die exakte Vorhersage zukünftiger Tokens als Hilfsverlust zu anspruchsvoll ist. Stattdessen schlagen wir die Vorhersage der Token-Reihenfolge (TOP) vor, bei der Modelle mittels eines Learning-to-Rank-Verlustes trainiert werden, um kommende Tokens nach ihrer Nähe zu ordnen. Im Gegensatz zu MTP, das mehrere Transformer-Schichten erfordert, benötigt TOP lediglich eine zusätzliche Unembedding-Schicht. Wir prätrainieren Modelle mit 340 Mio., 1,8 Mrd. und 7 Mrd. Parametern unter Verwendung der Ziele NTP, MTP und TOP. Ergebnisse auf acht Standard-NLP-Benchmarks zeigen, dass TOP selbst bei großen Modellgrößen insgesamt sowohl NTP als auch MTP übertrifft. Unser Code ist unter https://github.com/zaydzuhri/token-order-prediction verfügbar.