il y a 2 mois

Traduction de mots sans données parallèles

Alexis Conneau; Guillaume Lample; Marc'Aurelio Ranzato; Ludovic Denoyer; Hervé Jégou

Résumé

Les méthodes les plus avancées pour l'apprentissage des plongements lexicaux interlinguistiques (cross-lingual word embeddings) ont jusqu'à présent reposé sur des dictionnaires bilingues ou des corpus parallèles. Des études récentes ont montré que la nécessité de données parallèles supervisées peut être atténuée grâce aux informations au niveau des caractères. Bien que ces méthodes aient produit des résultats encourageants, elles ne sont pas encore à la hauteur de leurs homologues supervisés et sont limitées aux paires de langues partageant un alphabet commun. Dans cette étude, nous démontrons qu'il est possible de construire un dictionnaire bilingue entre deux langues sans utiliser aucun corpus parallèle, en alignant les espaces de plongement lexicaux monolingues de manière non supervisée. Sans recourir à aucune information sur les caractères, notre modèle dépasse même les méthodes existantes supervisées dans certaines tâches interlinguistiques pour certaines paires de langues. Nos expériences montrent également que notre méthode fonctionne très bien pour des paires de langues éloignées, comme l'anglais-russe ou l'anglais-chinois. Nous décrivons enfin des expériences menées sur la paire de langues à ressources limitées anglais-esperanto, où il n'existe qu'une quantité limitée de données parallèles, afin d'illustrer le potentiel impact de notre méthode dans la traduction automatique entièrement non supervisée. Notre code, nos plongements et nos dictionnaires sont disponibles au public.