il y a 2 mois

Plongements de phrases massivement multilingues pour le transfert croisé zéro-shot et au-delà

Mikel Artetxe; Holger Schwenk

Résumé

Nous présentons une architecture permettant d'apprendre des représentations de phrases multilingues conjointes pour 93 langues, appartenant à plus de 30 familles différentes et écrites dans 28 systèmes d'écriture différents. Notre système utilise un seul encodeur BiLSTM avec un vocabulaire BPE partagé pour toutes les langues, qui est couplé à un décodeur auxiliaire et formé sur des corpus parallèles publiquement disponibles. Cela nous permet d'apprendre un classifieur au-dessus des plongements (embeddings) résultants en utilisant uniquement des données annotées en anglais, et de le transférer à l'une quelconque des 93 langues sans aucune modification. Nos expériences dans l'inférence linguistique croisée (ensemble de données XNLI), la classification de documents croisée (ensemble de données MLDoc) et l'extraction de corpus parallèles (ensemble de données BUCC) montrent l'efficacité de notre approche. Nous introduisons également un nouveau jeu de test composé de phrases alignées dans 112 langues, et montrons que nos plongements de phrases obtiennent des résultats solides dans la recherche de similarité multilingue, même pour les langues à ressources limitées. Notre implémentation, l'encodeur pré-entraîné et le jeu de test multilingue sont disponibles sur https://github.com/facebookresearch/LASER.