ACES: Translation Accuracy Challenge Sets zur Evaluierung von Maschinenübersetzungs-Metriken

Da sich die Leistung von Maschinenübersetzungsmetriken (MT-Metriken) Jahr für Jahr stärker mit menschlicher Beurteilung korrelieren, ist es entscheidend, die Grenzen solcher Metriken auf Segmentebene zu verstehen. Insbesondere ist es wichtig, das Verhalten von Metriken zu untersuchen, wenn sie auf Genauigkeitsfehler in der Maschinenübersetzung stoßen, da diese in bestimmten Kontexten (z. B. juristisch, medizinisch) gravierende Folgen haben können. Wir präsentieren ACES, eine Challenge zur Übersetzungsqualität, die aus 68 Phänomenen besteht, die von einfachen Störungen auf Wort- oder Zeichenebene bis hin zu komplexeren Fehlern basierend auf Diskursstruktur und realweltlichem Wissen reichen. Wir nutzen ACES, um eine breite Palette von MT-Metriken zu bewerten, darunter auch die Beiträge zum WMT 2022 Metrics Shared Task, und führen mehrere Analysen durch, die zu allgemeinen Empfehlungen für Entwickler von Metriken führen. Wir empfehlen: a) die Kombination von Metriken mit unterschiedlichen Stärken, b) die Entwicklung von Metriken, die dem Quelltext mehr Gewicht beimessen und weniger auf oberflächliche Übereinstimmung mit der Referenz abstellen, sowie c) die explizite Modellierung zusätzlicher sprachspezifischer Informationen jenseits dessen, was über multilinguale Embeddings verfügbar ist.