il y a 2 mois

Prédire l'ordre des jetons suivants améliore la modélisation du langage

Voir les détails de l'article Voir le code

Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

Prédire l'ordre des jetons suivants améliore la modélisation du langage

Résumé

La prédiction de plusieurs jetons (Multi-Token Prediction, MTP) a été proposée comme objectif auxiliaire afin d'améliorer la prédiction du jeton suivant (Next-Token Prediction, NTP) lors de l'entraînement des modèles linguistiques, mais elle présente des améliorations incohérentes, se révélant inférieure aux performances sur les benchmarks standards de traitement du langage naturel (NLP). Nous soutenons que la prédiction exacte des jetons futurs dans le cadre de la MTP constitue une tâche trop difficile pour servir d'objectif auxiliaire. À la place, nous proposons la prédiction de l’ordre des jetons (Token Order Prediction, TOP), qui entraîne les modèles à classer les jetons à venir selon leur proximité, en utilisant une fonction de perte d’apprentissage par classement (learning-to-rank loss). Contrairement à la MTP, qui nécessite plusieurs couches de transformateurs supplémentaires, la TOP n’exige qu’une seule couche supplémentaire de dé-embedding. Nous avons préentraîné des modèles de 340 millions, 1,8 milliard et 7 milliards de paramètres en utilisant respectivement les objectifs NTP, MTP et TOP. Les résultats obtenus sur huit benchmarks standards de NLP montrent que la TOP surpasse globalement à la fois le NTP et le MTP, même à grande échelle. Le code est disponible à l’adresse suivante : https://github.com/zaydzuhri/token-order-prediction

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Prédire l'ordre des jetons suivants améliore la modélisation du langage

Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

Résumé

Construire l'IA avec l'IA

Hyper Newsletters