il y a 17 jours

Aucune langue laissée pour compte : L’adaptation à grande échelle de la traduction automatique centrée sur l’humain

NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang

Voir les détails de l'article

Aucune langue laissée pour compte : L’adaptation à grande échelle de la traduction automatique centrée sur l’humain

Résumé

Poussé par l’objectif de supprimer les barrières linguistiques à l’échelle mondiale, la traduction automatique s’est affirmée comme un axe central de la recherche en intelligence artificielle aujourd’hui. Toutefois, ces efforts se sont concentrés sur un petit sous-ensemble de langues, laissant de côté la majorité des langues, principalement à faibles ressources. Quels sont les moyens nécessaires pour franchir la barrière des 200 langues tout en garantissant des résultats de haute qualité et sécurisés, tout en tenant compte des enjeux éthiques ? Dans le cadre de « No Language Left Behind », nous avons relevé ce défi en commençant par contextualiser la nécessité d’un soutien à la traduction pour les langues à faibles ressources, à travers des entretiens exploratoires avec des locuteurs natifs. Ensuite, nous avons conçu des jeux de données et des modèles visant à réduire l’écart de performance entre les langues à faibles et celles à fortes ressources. Plus précisément, nous avons développé un modèle à calcul conditionnel basé sur un Mélange d’Experts à activation creuse (Sparsely Gated Mixture of Experts), entraîné sur des données obtenues grâce à des techniques novatrices et efficaces d’extraction de données spécifiquement adaptées aux langues à faibles ressources. Nous proposons plusieurs améliorations architecturales et de formation pour contrer le surapprentissage lors de l’entraînement sur des milliers de tâches. De manière cruciale, nous avons évalué les performances de plus de 40 000 directions de traduction différentes à l’aide d’un benchmark humainement traduit, Flores-200, et combiné cette évaluation humaine avec un nouveau benchmark de toxicité couvrant toutes les langues du jeu Flores-200 afin d’évaluer la sécurité des traductions. Notre modèle atteint une amélioration de 44 % en BLEU par rapport à l’état de l’art précédent, posant ainsi des fondations essentielles vers la réalisation d’un système universel de traduction. Enfin, nous mettons à disposition librement tous les contributeurs décrits dans ce travail, accessibles à l’adresse suivante : https://github.com/facebookresearch/fairseq/tree/nllb.