VarMAE : Pré-entraînement d’un Autoencodeur Masqué Variationnel pour une Compréhension Linguistique Adaptative au Domaine

Les modèles pré-entraînés de langage ont atteint des performances prometteuses sur des benchmarks généraux, mais ils peinent à s’adapter à des domaines spécifiques. Les travaux récents proposent d’entraîner à partir de zéro ou de poursuivre l’entraînement préalable sur des corpus spécialisés. Toutefois, dans de nombreux domaines particuliers, la faiblesse du corpus disponible ne permet pas d’obtenir des représentations précises. Pour résoudre ce problème, nous proposons un nouveau modèle de langage basé sur Transformer, nommé VarMAE, conçu pour une compréhension du langage adaptée au domaine. Sous l’objectif d’auto-encodage masqué, nous avons conçu un module d’apprentissage de l’incertitude contextuelle afin de représenter le contexte d’un token par une distribution latente lisse. Ce module permet de générer des représentations contextuelles à la fois diversifiées et bien formées. Des expériences menées sur des tâches de compréhension du langage dans les domaines scientifique et financier démontrent que VarMAE peut être efficacement adapté à de nouveaux domaines même en présence de ressources limitées.