HyperAIHyperAI

Command Palette

Search for a command to run...

ProphetNet : Prédiction des n-grammes futurs pour l'entraînement préalable séquence-à-séquence

Weizhen Qi Yu Yan Yeyun Gong Dayiheng Liu Nan Duan Jiusheng Chen Ruofei Zhang Ming Zhou

Résumé

Cet article présente un nouveau modèle pré-entraîné de type séquence à séquence appelé ProphetNet, qui introduit une nouvelle objectif auto-supervisé nommé prédiction des n-grammes futurs ainsi qu’un mécanisme d’attention auto-supervisée à n flux. Contrairement aux modèles séquence à séquence traditionnels, qui sont optimisés pour la prédiction à un pas d’avance, ProphetNet est optimisé par une prédiction à n pas d’avance, permettant de prédire simultanément les n tokens suivants à partir des tokens contextuels précédents à chaque étape temporelle. La prédiction des n-grammes futurs encourage explicitement le modèle à anticiper les tokens futurs et à éviter le surajustement aux corrélations locales fortes. Nous pré-entraînons ProphetNet à l’aide d’un jeu de données de taille basse (16 Go) et d’un jeu de données à grande échelle (160 Go), respectivement. Ensuite, nous menons des expériences sur les benchmarks CNN/DailyMail, Gigaword et SQuAD 1.1 pour les tâches de résumé abstrait et de génération de questions. Les résultats expérimentaux montrent que ProphetNet atteint de nouveaux états de l’art sur tous ces jeux de données par rapport aux modèles utilisant un corpus de pré-entraînement de même échelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp