Évaluation de la traduction automatique par des modèles linguistiques massifs pour les rapports de bogues multilingues

La traduction précise des rapports de bogues est essentielle pour assurer une collaboration efficace dans le développement logiciel mondial. Dans cette étude, nous menons la première évaluation complète des performances de la traduction automatique (TA) sur les rapports de bogues, en analysant les capacités de DeepL, AWS Translate, ainsi que de modèles de langage à grande échelle tels que ChatGPT, Claude, Gemini, LLaMA et Mistral, à l’aide de données provenant du dépôt GitHub de Visual Studio Code, en se concentrant spécifiquement sur les rapports étiquetés avec le tag english-please. Pour évaluer à la fois la qualité de la traduction et l’exactitude de l’identification de la langue source, nous utilisons une gamme de métriques de TA — notamment BLEU, BERTScore, COMET, METEOR et ROUGE — ainsi que des métriques de classification telles que la précision, le rappel et le score F1. Nos résultats révèlent que, bien que ChatGPT (gpt-4o) se distingue par une qualité sémantique et lexicale supérieure en traduction, il ne domine pas dans l’identification de la langue source. Claude et Mistral obtiennent les meilleurs scores F1 (respectivement 0,7182 et 0,7142), tandis que Gemini affiche la meilleure précision (0,7414). AWS Translate affiche la plus haute précision (0,4717) pour l’identification de la langue source. Ces résultats mettent en évidence qu’aucun système unique ne domine toutes les tâches, ce qui souligne l’importance d’évaluations spécifiques aux tâches. Cette étude met également en évidence la nécessité d’une adaptation au domaine lors de la traduction de contenus techniques, tout en fournissant des recommandations concrètes pour intégrer la TA dans les flux de tri des bogues. Le code et les données de cette étude sont disponibles sur GitHub : https://github.com/av9ash/English-Please