Maîtrise des modèles linguistiques pré-entraînés à l’aide de représentations N-gram pour l’adaptation de domaine à faible ressource

Les grands modèles préentraînés tels que BERT sont connus pour améliorer diverses tâches NLP en amont, même lorsqu’ils ont été entraînés sur un domaine générique. Par ailleurs, des études récentes ont montré qu’en présence de grandes corpora spécialisées dans un domaine, un entraînement continu sur ces données spécifiques peut encore renforcer les performances sur les tâches propres à ce domaine. Toutefois, cette pratique nécessite des quantités importantes de données spécifiques au domaine ainsi que des ressources computationnelles considérables, qui ne sont pas toujours disponibles. Dans cet article, nous visons à adapter un modèle préentraîné générique à l’aide d’une quantité relativement faible de données spécifiques au domaine. Nous démontrons qu’en intégrant explicitement des informations à plusieurs granularités sur des mots inédits et spécifiques au domaine grâce à l’adaptation d’(éléments basés sur des) n-grammes, les performances d’un modèle préentraîné générique peuvent être considérablement améliorées. Plus précisément, nous introduisons T-DNA, un adaptateur basé sur le Transformer et sensible au domaine, conçu pour apprendre efficacement et intégrer les représentations sémantiques des différentes combinaisons de mots dans le nouveau domaine. Les résultats expérimentaux illustrent l’efficacité de T-DNA sur huit tâches en aval à faible ressource provenant de quatre domaines différents. Nous montrons que T-DNA permet d’obtenir des améliorations significatives par rapport aux méthodes existantes sur la plupart des tâches, en utilisant des données limitées et à un coût computationnel réduit. En outre, des analyses complémentaires mettent en évidence l’importance et l’efficacité à la fois des mots inédits et des informations de différentes granularités. Notre code est disponible à l’adresse suivante : https://github.com/shizhediao/T-DNA.