HyperAI

Mutarjim : Amélioration de la traduction bidirectionnelle arabe-anglais avec un petit modèle linguistique

Hennara, Khalil ; Hreden, Muhammad ; Hamed, Mohamed Motaism ; Aldallal, Zeina ; Chrouf, Sara ; AlModhayan, Safwan
Date de publication: 5/27/2025
Mutarjim : Amélioration de la traduction bidirectionnelle arabe-anglais avec un petit modèle linguistique
Résumé

Nous présentons Mutarjim, un modèle de langage compact mais puissant pour la traduction bidirectionnelle arabe-anglais. Bien que les grands modèles de langage (LLMs) aient montré des progrès impressionnants dans les tâches de traitement du langage naturel, notamment la traduction automatique, les modèles plus petits restent souvent sous-estimés. En nous appuyant sur cette constatation, nous avons développé Mutarjim en utilisant Kuwain-1.5B, un modèle de langage spécifiquement adapté aux langues arabe et anglaise. Malgré sa taille modeste, Mutarjim surpasse des modèles beaucoup plus volumineux sur plusieurs benchmarks établis, grâce à une approche d'entraînement optimisée en deux phases et à un corpus d'entraînement soigneusement sélectionné et de haute qualité.Les résultats expérimentaux montrent que Mutarjim rivalise avec des modèles jusqu'à 20 fois plus grands tout en réduisant considérablement les coûts informatiques et les exigences d'entraînement. Nous introduisons également Tarjama-25, un nouveau benchmark conçu pour surmonter les limitations des jeux de données existants pour l'évaluation arabe-anglais, telles que la spécialisation excessive par domaine, les phrases courtes et le biais en faveur des sources anglaises. Tarjama-25 comprend 5 000 paires de phrases revues par des experts et couvre une large gamme de domaines, offrant ainsi un cadre d'évaluation plus complet et équilibré.Notamment, Mutarjim atteint des performances de pointe dans la tâche de traduction anglais-arabe selon Tarjama-25, surpassant même des modèles bien plus importants et propriétaires comme GPT-4 mini. Nous mettons Tarjama-25 à disposition du public afin de soutenir les recherches futures et d'améliorer l'évaluation des systèmes de traduction arabe-anglais.