
버그 보고서의 정확한 번역은 글로벌 소프트웨어 개발에서 효율적인 협업을 위해 필수적이다. 본 연구에서는 버그 보고서에 대한 기계 번역(MT) 성능에 대한 최초의 종합적인 평가를 수행하며, Visual Studio Code GitHub 저장소의 데이터를 활용하여 'english-please' 태그가 지정된 보고서에 초점을 맞춘다. DeepL, AWS Translate, 그리고 ChatGPT, Claude, Gemini, LLaMA, Mistral과 같은 대규모 언어 모델의 번역 능력을 분석한다. 번역 품질과 원본 언어 식별 정확도를 평가하기 위해 BLEU, BERTScore, COMET, METEOR, ROUGE 등의 기계 번역 평가 지표와 함께 정확도, 정밀도, 재현율, F1 점수와 같은 분류 지표를 활용한다. 연구 결과에 따르면, ChatGPT(gpt-4o)는 의미적 및 어휘적 번역 품질에서 뛰어나지만, 원본 언어 식별에서는 최우수 성능을 보이지 않는다. Claude와 Mistral은 각각 0.7182와 0.7142의 최고 F1 점수를 기록했으며, Gemini는 0.7414의 최고 정밀도를 달성했다. 반면 AWS Translate는 원본 언어 식별에서 가장 높은 정확도(0.4717)를 보였다. 이러한 결과는 어떤 한 시스템도 모든 작업에서 우월하지 않음을 보여주며, 작업별 평가의 중요성을 강조한다. 본 연구는 기술적 콘텐츠 번역 시 도메인 적응의 필요성을 부각시키며, 기계 번역을 버그 조사(workflow)에 통합하는 데 실질적인 통찰을 제공한다. 본 논문의 코드와 데이터셋은 GitHub에서 제공되며, 링크는 https://github.com/av9ash/English-Please 이다.