il y a 9 jours

N-Grammer : Augmenter les Transformers avec des n-grammes latents

Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao, Shuyuan Zhang, Shibo Wang, Ye Zhang, Shen Wu, Rigel Swavely, Phuong Dao, Christopher Fifty, Zhifeng Chen, Yonghui Wu

Voir les détails de l'article

N-Grammer : Augmenter les Transformers avec des n-grammes latents

Résumé

Les modèles Transformer sont récemment apparus comme l’un des piliers fondamentaux du traitement du langage naturel, entraînant en parallèle un intérêt croissant et des investissements importants dans leur mise à l’échelle. Toutefois, les coûts associés à l’entraînement et à l’inférence de ces grands modèles linguistiques Transformer restent prohibitifs, ce qui rend nécessaire une recherche accrue visant à identifier des variantes plus efficaces. Dans ce travail, nous proposons une modification simple mais efficace de l’architecture Transformer, inspirée de la littérature en modélisation linguistique statistique, en enrichissant le modèle avec des n-grammes construits à partir d’une représentation latente discrète de la séquence de texte. Nous évaluons notre modèle, appelé N-Grammer, sur la tâche de modélisation linguistique sur le jeu de données C4 ainsi que sur la classification de texte sur le jeu de données SuperGLUE, et constatons qu’il surpasser plusieurs baselines performantes, telles que le Transformer classique et le Primer. Nous mettons notre modèle à disposition sous licence open source, dans le cadre de Jax, afin de garantir la reproductibilité des résultats.