17日前

多言語バグレポートにおける大規模言語モデルを用いた機械翻訳の評価

Patil, Avinash, Tao, Siru, Jadon, Aryan
多言語バグレポートにおける大規模言語モデルを用いた機械翻訳の評価
要約

バグレポートの正確な翻訳は、グローバルなソフトウェア開発における効率的な協働にとって不可欠である。本研究では、バグレポートにおける機械翻訳(MT)性能に関する初めての包括的な評価を実施した。対象は、Visual Studio CodeのGitHubリポジトリから取得したデータで、特に「english-please」タグが付与されたレポートに注目した。評価対象となるMTシステムには、DeepL、AWS Translate、およびChatGPT、Claude、Gemini、LLaMA、Mistralといった大規模言語モデルが含まれる。翻訳品質と元言語同定の正確性の両面を評価するため、BLEU、BERTScore、COMET、METEOR、ROUGEといったMT評価指標に加え、精度(accuracy)、適合率(precision)、再現率(recall)、F1スコアといった分類評価指標を用いた。その結果、ChatGPT(gpt-4o)は意味的・語彙的翻訳品質において優れた性能を発揮したものの、元言語同定においては最優位ではないことが明らかになった。ClaudeとMistralはそれぞれF1スコア0.7182、0.7142を達成し、最高水準を記録した。一方、Geminiは適合率(precision)で最高の0.7414を記録した。AWS Translateは元言語同定の精度(accuracy)において最も高い0.4717を示した。これらの結果から、いかなる1つのシステムもすべてのタスクにおいて優位性を保つわけではないことが示され、タスクに応じた評価の重要性が強調された。本研究は、技術的コンテンツの翻訳においてドメイン適応(domain adaptation)の必要性を明らかにし、MTをバグ診断ワークフローに統合するための実用的知見を提供するものである。本論文のコードおよびデータセットはGitHubにて公開されている:https://github.com/av9ash/English-Please

多言語バグレポートにおける大規模言語モデルを用いた機械翻訳の評価 | 最新論文 | HyperAI超神経