17 天前

使用大语言模型评估多语言缺陷报告的机器翻译

Patil, Avinash, Tao, Siru, Jadon, Aryan
使用大语言模型评估多语言缺陷报告的机器翻译
摘要

准确翻译缺陷报告对于全球软件开发中的高效协作至关重要。在本研究中,我们首次对机器翻译(MT)在缺陷报告上的性能进行了全面评估,采用来自 Visual Studio Code GitHub 仓库的数据,特别聚焦于带有 english-please 标签的报告,考察 DeepL、AWS Translate 以及大型语言模型(如 ChatGPT、Claude、Gemini、LLaMA 和 Mistral)的翻译表现。为综合评估翻译质量与源语言识别准确性,我们采用了多种机器翻译评价指标,包括 BLEU、BERTScore、COMET、METEOR 和 ROUGE,同时结合分类任务中的准确率(accuracy)、精确率(precision)、召回率(recall)和 F1 分数进行分析。研究结果表明,尽管 ChatGPT(gpt-4o)在语义与词汇层面的翻译质量上表现最优,但在源语言识别任务中并未取得领先。Claude 和 Mistral 在 F1 分数上表现最佳,分别为 0.7182 和 0.7142;Gemini 则在精确率方面表现最佳,达到 0.7414;而 AWS Translate 在源语言识别的准确率上最高,为 0.4717。这些发现表明,目前尚无单一系统能在所有任务中全面占优,进一步凸显了针对具体任务开展评估的重要性。本研究强调了在翻译技术性内容时进行领域适配的必要性,并为将机器翻译有效整合进缺陷分类与处理工作流提供了切实可行的指导建议。本文所用代码与数据集已公开,可通过 GitHub 获取:https://github.com/av9ash/English-Please