BigTranslate : Augmenter les Modèles de Langage Énormes en leur intégrant une fonctionnalité multilingue de traduction couvrant plus de 100 langues

Les grands modèles linguistiques (LLM) font preuve d’une performance prometteuse dans la traduction entre diverses langues naturelles. Toutefois, de nombreux LLM, en particulier ceux à code source ouvert comme BLOOM et LLaMA, restent dominés par l’anglais et ne prennent en charge que des dizaines de langues naturelles, ce qui limite l’exploration du potentiel des LLM en matière de traduction multilingue. Dans ce travail, nous présentons BigTranslate, un modèle qui adapte LLaMA — initialement couvrant uniquement 20 langues — et lui confère une capacité de traduction multilingue sur plus de 100 langues. BigTranslate est basé sur LLaMA-13B et optimisé en trois étapes. Premièrement, nous poursuivons l’entraînement de LLaMA à l’aide de données monolingues chinoises massives. Deuxièmement, nous poursuivons l’entraînement du modèle à l’aide d’un jeu de données parallèle à grande échelle couvrant 102 langues naturelles. Troisièmement, nous effectuons une instruction-tuning du modèle fondamental à l’aide d’instructions de traduction multilingue, aboutissant ainsi au modèle BigTranslate. Les expériences préliminaires sur la traduction multilingue montrent que BigTranslate atteint des performances comparables à celles de ChatGPT et de Google Translate dans de nombreuses langues, et même excède ChatGPT dans 8 paires de langues. Nous mettons publiquement à disposition le modèle BigTranslate, dans l’espoir qu’il contribue à accélérer les progrès de la recherche dans ce domaine.