MAD-X : Un cadre fondé sur des adaptateurs pour le transfert multitasques et multilingue

L'objectif principal des modèles multilingues pré-entraînés de pointe, tels que multilingual BERT et XLM-R, est de permettre et d'accélérer le développement d'applications de traitement automatique du langage (NLP) dans les langues à faibles ressources grâce au transfert multilingue zéro-shot ou few-shot. Toutefois, en raison de leur capacité limitée, leurs performances de transfert sont justement les plus faibles pour ces langues à faibles ressources, ainsi que pour les langues non observées durant l'étape de pré-entraînement. Nous proposons MAD-X, un cadre basé sur des adaptateurs qui permet un transfert hautement portable et efficace en termes de paramètres vers des tâches et des langues arbitraires, en apprenant des représentations modulaires spécifiques aux langues et aux tâches. En outre, nous introduisons une nouvelle architecture d'adaptateur inversible ainsi qu'une méthode de base performante pour adapter un modèle multilingue pré-entraîné à une nouvelle langue. MAD-X dépasse l'état de l'art en transfert multilingue sur un ensemble représentatif de langues typologiquement diverses, dans les tâches de reconnaissance d'entités nommées et de raisonnement causale sur le sens commun, tout en obtenant des résultats compétitifs sur la question-réponse. Le code source et les adaptateurs sont disponibles sur AdapterHub.ml.