Command Palette
Search for a command to run...
Prédire l'ordre des jetons suivants améliore la modélisation du langage
Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

Résumé
La prédiction de plusieurs jetons (Multi-Token Prediction, MTP) a été proposée comme objectif auxiliaire afin d'améliorer la prédiction du jeton suivant (Next-Token Prediction, NTP) lors de l'entraînement des modèles linguistiques, mais elle présente des améliorations incohérentes, se révélant inférieure aux performances sur les benchmarks standards de traitement du langage naturel (NLP). Nous soutenons que la prédiction exacte des jetons futurs dans le cadre de la MTP constitue une tâche trop difficile pour servir d'objectif auxiliaire. À la place, nous proposons la prédiction de l’ordre des jetons (Token Order Prediction, TOP), qui entraîne les modèles à classer les jetons à venir selon leur proximité, en utilisant une fonction de perte d’apprentissage par classement (learning-to-rank loss). Contrairement à la MTP, qui nécessite plusieurs couches de transformateurs supplémentaires, la TOP n’exige qu’une seule couche supplémentaire de dé-embedding. Nous avons préentraîné des modèles de 340 millions, 1,8 milliard et 7 milliards de paramètres en utilisant respectivement les objectifs NTP, MTP et TOP. Les résultats obtenus sur huit benchmarks standards de NLP montrent que la TOP surpasse globalement à la fois le NTP et le MTP, même à grande échelle. Le code est disponible à l’adresse suivante : https://github.com/zaydzuhri/token-order-prediction
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.