Un changement de paradigme dans la traduction automatique : Amélioration des performances de traduction des grands modèles linguistiques (LLM)

Les grands modèles linguistiques génératifs (LLM) ont connu des progrès remarquables dans diverses tâches de traitement du langage naturel (NLP). Toutefois, ces avancées ne se sont pas encore traduites par des améliorations significatives dans la tâche de traduction, en particulier pour les modèles de taille modérée (c’est-à-dire 7 milliards ou 13 milliards de paramètres), qui restent encore inférieurs aux modèles conventionnels supervisés à architecture encodeur-décodeur. Des études antérieures ont tenté d’améliorer les capacités de traduction de ces LLM de taille modérée, mais les gains obtenus ont été limités. Dans cette étude, nous proposons une nouvelle méthode de fine-tuning adaptée spécifiquement à la tâche de traduction pour les LLM, éliminant ainsi la nécessité de grandes quantités de données parallèles, dont dépendent traditionnellement les modèles de traduction. Notre approche repose sur deux étapes de fine-tuning : une première phase de fine-tuning sur des données monolingues, suivie d’une seconde phase sur un petit ensemble de données parallèles de haute qualité. Nous introduisons le modèle développé selon cette stratégie sous le nom de Advanced Language Model-based trAnslator (ALMA). En s’appuyant sur le modèle fondamental LLaMA-2, nos résultats montrent que le modèle atteint une amélioration moyenne de plus de 12 points BLEU et 12 points COMET par rapport à sa performance « zero-shot » sur 10 directions de traduction issues des jeux de test WMT’21 (2 directions) et WMT’22 (8 directions). Cette performance est nettement supérieure à celle de toutes les méthodes antérieures, et même supérieure à celle du modèle NLLB-54B et de GPT-3.5-text-davinci-003, malgré une taille modeste de 7 ou 13 milliards de paramètres. Cette méthode établit les fondations d’un nouveau paradigme d’entraînement en traduction automatique.