HyperAIHyperAI
vor 17 Tagen

Bewertung der maschinellen Übersetzung mit großen Sprachmodellen für mehrsprachige Fehlerberichte

Patil, Avinash, Tao, Siru, Jadon, Aryan
Bewertung der maschinellen Übersetzung mit großen Sprachmodellen für mehrsprachige Fehlerberichte
Abstract

Die genaue Übersetzung von Fehlerberichten ist entscheidend für eine effiziente Zusammenarbeit in der globalen Softwareentwicklung. In dieser Studie führen wir die erste umfassende Bewertung der Leistung von maschinellem Übersetzen (MT) bei Fehlerberichten durch und analysieren die Fähigkeiten von DeepL, AWS Translate sowie großen Sprachmodellen wie ChatGPT, Claude, Gemini, LLaMA und Mistral anhand von Daten aus dem GitHub-Repository von Visual Studio Code, wobei wir uns speziell auf Berichte mit dem Tag „english-please“ konzentrieren. Um sowohl die Übersetzungsqualität als auch die Genauigkeit der Quellspracherkennung zu bewerten, setzen wir eine Vielzahl von MT-Bewertungsmetriken ein – darunter BLEU, BERTScore, COMET, METEOR und ROUGE – sowie Klassifikationsmetriken wie Genauigkeit, Präzision, Recall und F1-Score. Unsere Ergebnisse zeigen, dass ChatGPT (gpt-4o) zwar hervorragende Leistungen in Bezug auf semantische und lexikalische Übersetzungsqualität erzielt, jedoch nicht die führende Rolle bei der Quellspracherkennung einnimmt. Claude und Mistral erreichen jeweils die höchsten F1-Scores (0,7182 bzw. 0,7142), während Gemini die beste Präzision (0,7414) erzielt. AWS Translate zeigt die höchste Genauigkeit (0,4717) bei der Erkennung der Quellsprache. Diese Ergebnisse unterstreichen, dass kein einzelnes System in allen Aufgaben dominierend ist, was die Bedeutung einer aufgabebezogenen Bewertung unterstreicht. Die Studie zeigt zudem die Notwendigkeit einer domänenspezifischen Anpassung bei der Übersetzung technischer Inhalte und liefert praktikable Erkenntnisse für die Integration von MT in Workflows zur Fehlerzuordnung. Der Quellcode und das Datenset für diese Arbeit sind auf GitHub verfügbar: https://github.com/av9ash/English-Please

Bewertung der maschinellen Übersetzung mit großen Sprachmodellen für mehrsprachige Fehlerberichte | Neueste Forschungsarbeiten | HyperAI