HyperAIHyperAI

Command Palette

Search for a command to run...

Plongements de phrases massivement multilingues pour le transfert croisé zéro-shot et au-delà

["name": "Mikel Artetxe" "affiliation": "University of the Basque Country (UPV/EHU)*" "email": "[email protected]" "name": "Holger Schwenk" "affiliation": "Facebook AI Research" "email": "[email protected]"]

Résumé

Nous présentons une architecture permettant d'apprendre des représentations de phrases multilingues conjointes pour 93 langues, appartenant à plus de 30 familles différentes et écrites dans 28 systèmes d'écriture différents. Notre système utilise un seul encodeur BiLSTM avec un vocabulaire BPE partagé pour toutes les langues, qui est couplé à un décodeur auxiliaire et formé sur des corpus parallèles publiquement disponibles. Cela nous permet d'apprendre un classifieur au-dessus des plongements (embeddings) résultants en utilisant uniquement des données annotées en anglais, et de le transférer à l'une quelconque des 93 langues sans aucune modification. Nos expériences dans l'inférence linguistique croisée (ensemble de données XNLI), la classification de documents croisée (ensemble de données MLDoc) et l'extraction de corpus parallèles (ensemble de données BUCC) montrent l'efficacité de notre approche. Nous introduisons également un nouveau jeu de test composé de phrases alignées dans 112 langues, et montrons que nos plongements de phrases obtiennent des résultats solides dans la recherche de similarité multilingue, même pour les langues à ressources limitées. Notre implémentation, l'encodeur pré-entraîné et le jeu de test multilingue sont disponibles sur https://github.com/facebookresearch/LASER.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Plongements de phrases massivement multilingues pour le transfert croisé zéro-shot et au-delà | Articles | HyperAI