HyperAIHyperAI

Command Palette

Search for a command to run...

Prédire l'ordre des jetons suivants améliore la modélisation du langage

Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

Résumé

La prédiction de plusieurs jetons (Multi-Token Prediction, MTP) a été proposée comme objectif auxiliaire afin d'améliorer la prédiction du jeton suivant (Next-Token Prediction, NTP) lors de l'entraînement des modèles linguistiques, mais elle présente des améliorations incohérentes, se révélant inférieure aux performances sur les benchmarks standards de traitement du langage naturel (NLP). Nous soutenons que la prédiction exacte des jetons futurs dans le cadre de la MTP constitue une tâche trop difficile pour servir d'objectif auxiliaire. À la place, nous proposons la prédiction de l’ordre des jetons (Token Order Prediction, TOP), qui entraîne les modèles à classer les jetons à venir selon leur proximité, en utilisant une fonction de perte d’apprentissage par classement (learning-to-rank loss). Contrairement à la MTP, qui nécessite plusieurs couches de transformateurs supplémentaires, la TOP n’exige qu’une seule couche supplémentaire de dé-embedding. Nous avons préentraîné des modèles de 340 millions, 1,8 milliard et 7 milliards de paramètres en utilisant respectivement les objectifs NTP, MTP et TOP. Les résultats obtenus sur huit benchmarks standards de NLP montrent que la TOP surpasse globalement à la fois le NTP et le MTP, même à grande échelle. Le code est disponible à l’adresse suivante : https://github.com/zaydzuhri/token-order-prediction


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp