HyperAIHyperAI

Command Palette

Search for a command to run...

Aucune langue laissée pour compte : L’adaptation à grande échelle de la traduction automatique centrée sur l’humain

Résumé

Poussé par l’objectif de supprimer les barrières linguistiques à l’échelle mondiale, la traduction automatique s’est affirmée comme un axe central de la recherche en intelligence artificielle aujourd’hui. Toutefois, ces efforts se sont concentrés sur un petit sous-ensemble de langues, laissant de côté la majorité des langues, principalement à faibles ressources. Quels sont les moyens nécessaires pour franchir la barrière des 200 langues tout en garantissant des résultats de haute qualité et sécurisés, tout en tenant compte des enjeux éthiques ? Dans le cadre de « No Language Left Behind », nous avons relevé ce défi en commençant par contextualiser la nécessité d’un soutien à la traduction pour les langues à faibles ressources, à travers des entretiens exploratoires avec des locuteurs natifs. Ensuite, nous avons conçu des jeux de données et des modèles visant à réduire l’écart de performance entre les langues à faibles et celles à fortes ressources. Plus précisément, nous avons développé un modèle à calcul conditionnel basé sur un Mélange d’Experts à activation creuse (Sparsely Gated Mixture of Experts), entraîné sur des données obtenues grâce à des techniques novatrices et efficaces d’extraction de données spécifiquement adaptées aux langues à faibles ressources. Nous proposons plusieurs améliorations architecturales et de formation pour contrer le surapprentissage lors de l’entraînement sur des milliers de tâches. De manière cruciale, nous avons évalué les performances de plus de 40 000 directions de traduction différentes à l’aide d’un benchmark humainement traduit, Flores-200, et combiné cette évaluation humaine avec un nouveau benchmark de toxicité couvrant toutes les langues du jeu Flores-200 afin d’évaluer la sécurité des traductions. Notre modèle atteint une amélioration de 44 % en BLEU par rapport à l’état de l’art précédent, posant ainsi des fondations essentielles vers la réalisation d’un système universel de traduction. Enfin, nous mettons à disposition librement tous les contributeurs décrits dans ce travail, accessibles à l’adresse suivante : https://github.com/facebookresearch/fairseq/tree/nllb.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp