XLNet : Préformation généralisée autoregressive pour la compréhension du langage

Avec la capacité de modéliser des contextes bidirectionnels, les méthodes d'auto-encodage débruitant basées sur l'auto-encodage préentraîné, comme BERT, obtiennent de meilleures performances que les approches de préentraînement basées sur le modèle de langage autorégressif. Cependant, en s'appuyant sur la corruption de l'entrée par des masques, BERT néglige la dépendance entre les positions masquées et souffre d'une discordance entre le préentraînement et le finetuning. À la lumière de ces avantages et inconvénients, nous proposons XLNet, une méthode de préentraînement autorégressive généralisée qui (1) permet d'apprendre des contextes bidirectionnels en maximisant la vraisemblance attendue sur toutes les permutations de l'ordre de factorisation et (2) surmonte les limitations de BERT grâce à sa formulation autorégressive. De plus, XLNet intègre des idées provenant du modèle Transformer-XL, actuellement le modèle autorégressif le plus performant, dans son processus de préentraînement. Expérimentalement, sous des conditions expérimentales comparables, XLNet surpasses BERT dans 20 tâches différentes, souvent avec une marge importante, notamment en réponse aux questions, en inférence linguistique naturelle, en analyse de sentiments et en classement de documents.