Pontage de l'écart de domaine dans la classification de documents translinguistiques

La rareté des données d'entraînement étiquetées empêche souvent l'internationalisation des modèles de traitement du langage naturel (NLP) à plusieurs langues. Les récentes avancées dans la compréhension interlinguistique (XLU) ont permis des progrès significatifs dans ce domaine, en tentant de surmonter la barrière linguistique grâce à des représentations universelles du langage. Cependant, même si le problème linguistique était résolu, les modèles formés dans une langue ne se transféreraient pas parfaitement vers une autre langue en raison du décalage naturel de domaine entre les langues et les cultures. Nous considérons un cadre de compréhension interlinguistique semi-supervisée, où des données étiquetées sont disponibles dans une langue source (l'anglais), mais où seules des données non étiquetées sont disponibles dans la langue cible. Nous combinons les méthodes interlinguistiques de pointe avec des méthodes récemment proposées pour l'apprentissage faiblement supervisé, telles que l'entraînement non supervisé et l'augmentation de données non supervisée, afin de combler simultanément le fossé linguistique et le fossé de domaine dans la XLU. Nous montrons que l'abord du fossé de domaine est crucial. Nous améliorons les résultats par rapport à des baselines solides et atteignons un nouveau niveau d'état de l'art pour la classification interlinguistique de documents.