HyperAIHyperAI
il y a un mois

XLNet : Préformation généralisée autoregressive pour la compréhension du langage

Zhilin Yang; Zihang Dai; Yiming Yang; Jaime Carbonell; Ruslan Salakhutdinov; Quoc V. Le
XLNet : Préformation généralisée autoregressive pour la compréhension du langage
Résumé

Avec la capacité de modéliser des contextes bidirectionnels, les méthodes d'auto-encodage débruitant basées sur l'auto-encodage préentraîné, comme BERT, obtiennent de meilleures performances que les approches de préentraînement basées sur le modèle de langage autorégressif. Cependant, en s'appuyant sur la corruption de l'entrée par des masques, BERT néglige la dépendance entre les positions masquées et souffre d'une discordance entre le préentraînement et le finetuning. À la lumière de ces avantages et inconvénients, nous proposons XLNet, une méthode de préentraînement autorégressive généralisée qui (1) permet d'apprendre des contextes bidirectionnels en maximisant la vraisemblance attendue sur toutes les permutations de l'ordre de factorisation et (2) surmonte les limitations de BERT grâce à sa formulation autorégressive. De plus, XLNet intègre des idées provenant du modèle Transformer-XL, actuellement le modèle autorégressif le plus performant, dans son processus de préentraînement. Expérimentalement, sous des conditions expérimentales comparables, XLNet surpasses BERT dans 20 tâches différentes, souvent avec une marge importante, notamment en réponse aux questions, en inférence linguistique naturelle, en analyse de sentiments et en classement de documents.

XLNet : Préformation généralisée autoregressive pour la compréhension du langage | Articles de recherche récents | HyperAI