GenTranslate : les Modèles de Langage Énormes sont des Traducteurs Parlés Multilingues Génératifs et des Traducteurs Machines

Les avancées récentes des grands modèles linguistiques (LLM) ont considérablement contribué au progrès de la traduction multilingue et de la traduction automatique de parole grâce à une réduction des erreurs de représentation et à l’intégration de connaissances externes. Toutefois, ces deux tâches de traduction s’appuient généralement sur une décodage par recherche en largeur (beam search) et sur la sélection du meilleur hypothèse (top-1) lors de l’inférence. Ces approches peinent à exploiter pleinement l’information riche contenue dans les différentes hypothèses du N-best, ce qui les rend moins optimales pour des tâches de traduction nécessitant une seule séquence de sortie de haute qualité. Dans cet article, nous proposons un nouveau paradigme génératif pour les tâches de traduction, nommé « GenTranslate », qui s’appuie sur les LLM pour produire des résultats améliorés à partir des différentes versions de traduction présentes dans la liste N-best. Grâce à la richesse des connaissances linguistiques et aux puissantes capacités de raisonnement des LLM, notre nouveau paradigme permet d’intégrer efficacement les informations contenues dans les hypothèses du N-best afin de générer une traduction de meilleure qualité. En outre, afin de faciliter le fine-tuning des LLM, nous avons construit et publié un jeu de données HypoTranslate, comprenant plus de 592 000 paires hypothèse-traduction dans 11 langues. Des expérimentations menées sur diverses benchmarks de traduction automatique et de traduction de parole (par exemple, FLEURS, CoVoST-2, WMT) montrent que GenTranslate surpassent significativement les modèles de pointe actuels.