il y a 2 mois

Adaptation des Transformers multilingues bidirectionnels profonds pour la langue russe

Yuri Kuratov; Mikhail Arkhipov

Résumé

L'article présente des méthodes d'adaptation de modèles de langage masqués multilingues à une langue spécifique. Les modèles de langage bidirectionnels pré-entraînés montrent des performances de pointe sur un large éventail de tâches, notamment la compréhension de lecture, l'inférence en langage naturel et l'analyse de sentiments. Actuellement, il existe deux approches alternatives pour entraîner ces modèles : monolingue et multilingue. Bien que les modèles spécifiques à une langue affichent des performances supérieures, les modèles multilingues permettent de réaliser un transfert d'une langue à une autre et de résoudre des tâches pour différentes langues simultanément. Cette étude montre que le transfert d'apprentissage d'un modèle multilingue à un modèle monolingue entraîne une augmentation significative des performances sur des tâches telles que la compréhension de lecture, la détection de paraphrases et l'analyse de sentiments. De plus, l'initialisation multilingue d'un modèle monolingue réduit considérablement le temps d'entraînement. Les modèles pré-entraînés pour la langue russe sont mis à disposition sous licence open source.