Rapide, efficace et auto-supervisé : transformation des modèles de langage masqués en encodeurs lexicaux et de phrases universels

Les modèles de langage masqués préentraînés (MLMs) ont révolutionné le traitement du langage naturel (NLP) ces dernières années. Cependant, des travaux antérieurs ont montré que les MLMs prêts à l'emploi ne sont pas efficaces en tant qu'encodeurs lexicaux ou de phrases universels sans un affinage supplémentaire spécifique à la tâche sur des tâches telles que l'inférence linguistique (NLI), la similarité de phrases ou la reformulation, utilisant des données de tâches annotées. Dans cette étude, nous démontrons qu'il est possible de transformer les MLMs en encodeurs lexicaux et de phrases universels efficaces même sans aucune donnée supplémentaire et sans aucune supervision. Nous proposons une technique d'apprentissage par contraste extrêmement simple, rapide et efficace, appelée Mirror-BERT, qui convertit les MLMs (par exemple, BERT et RoBERTa) en tels encodeurs en 20-30 secondes sans connaissances externes supplémentaires. Mirror-BERT s'appuie sur des paires de chaînes entièrement identiques ou légèrement modifiées comme exemples d'affinage positifs (c'est-à-dire synonymes), et vise à maximiser leur similarité lors de l'affinage par identité. Nous rapportons d'importants gains par rapport aux MLMs prêts à l'emploi avec Mirror-BERT dans les tâches au niveau lexical et au niveau phrase, dans différents domaines et différentes langues. Notamment, dans les tâches standard de similarité sémantique de phrases (STS), notre modèle Mirror-BERT auto-supervisé correspond même aux performances des modèles Sentence-BERT affinés pour la tâche issus des travaux précédents. Enfin, nous examinons plus en détail le fonctionnement interne des MLMs et proposons quelques éléments probants sur les raisons pour lesquelles cette approche simple peut produire des encodeurs lexicaux et de phrases universels efficaces.