Beto, Bentz, Becas : L’Efficacité Surprenante de BERT en Translangue

Les modèles de représentation contextuelle préentraînés (Peters et al., 2018 ; Devlin et al., 2018) ont considérablement avancé l'état de l'art dans de nombreuses tâches de traitement du langage naturel (NLP). Une nouvelle version de BERT (Devlin, 2018) inclut un modèle préentraîné simultanément sur 104 langues, offrant des performances impressionnantes pour le transfert linguistique croisé sans supervision sur une tâche d'inférence en langage naturel. Cet article explore les potentialités plus larges du mBERT (multilingue) en tant que modèle de transfert linguistique croisé sans supervision sur 5 tâches de NLP couvrant au total 39 langues issues de différentes familles linguistiques : inférence en langage naturel (NLI), classification de documents, reconnaissance d'entités nommées (NER), étiquetage morpho-syntaxique (POS tagging) et analyse syntaxique dépendancielle. Nous comparons le mBERT aux meilleures méthodes publiées pour le transfert linguistique croisé sans supervision et constatons que le mBERT est compétitif dans chaque tâche. De plus, nous examinons la stratégie la plus efficace pour utiliser le mBERT à cette fin, déterminons dans quelle mesure le mBERT généralise en s'éloignant des caractéristiques spécifiques à chaque langue, et mesurons les facteurs qui influencent le transfert linguistique croisé.