HyperAIHyperAI

Command Palette

Search for a command to run...

Traduction de mots sans données parallèles

Alexis Conneau; Guillaume Lample; Marc'Aurelio Ranzato; Ludovic Denoyer; Hervé Jégou

Résumé

Les méthodes les plus avancées pour l'apprentissage des plongements lexicaux interlinguistiques (cross-lingual word embeddings) ont jusqu'à présent reposé sur des dictionnaires bilingues ou des corpus parallèles. Des études récentes ont montré que la nécessité de données parallèles supervisées peut être atténuée grâce aux informations au niveau des caractères. Bien que ces méthodes aient produit des résultats encourageants, elles ne sont pas encore à la hauteur de leurs homologues supervisés et sont limitées aux paires de langues partageant un alphabet commun. Dans cette étude, nous démontrons qu'il est possible de construire un dictionnaire bilingue entre deux langues sans utiliser aucun corpus parallèle, en alignant les espaces de plongement lexicaux monolingues de manière non supervisée. Sans recourir à aucune information sur les caractères, notre modèle dépasse même les méthodes existantes supervisées dans certaines tâches interlinguistiques pour certaines paires de langues. Nos expériences montrent également que notre méthode fonctionne très bien pour des paires de langues éloignées, comme l'anglais-russe ou l'anglais-chinois. Nous décrivons enfin des expériences menées sur la paire de langues à ressources limitées anglais-esperanto, où il n'existe qu'une quantité limitée de données parallèles, afin d'illustrer le potentiel impact de notre méthode dans la traduction automatique entièrement non supervisée. Notre code, nos plongements et nos dictionnaires sont disponibles au public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp