SemBleu: Eine robuste Metrik für die AMR-Parsing-Evaluation

Die Bewertung der Genauigkeit des AMR-Parsings beinhaltet den Vergleich von AMR-Graphenpaaren. Das wichtigste Bewertungsmaß, SMATCH (Cai und Knight, 2013), sucht mit einem gierigen Hill-Climbing-Algorithmus nach ein-zu-ein-Zuordnungen zwischen den Knoten zweier AMRs, was zu Suchfehlern führen kann. Wir schlagen SEMBLEU vor, eine robuste Metrik, die BLEU (Papineni et al., 2002) auf AMRs erweitert. Diese Metrik ist nicht anfällig für Suchfehler und berücksichtigt neben lokalen auch nicht-lokale Korrespondenzen. SEMBLEU ist vollständig inhaltsgetrieben und straft Situationen, in denen die Ausgabe eines Systems die meisten Informationen aus der Eingabe nicht beibehält. Vorläufige Experimente auf Satz- und Korpusniveau zeigen, dass SEMBLEU leicht konsistenter mit menschlichen Urteilen ist als SMATCH. Unser Code ist unter http://github.com/freesunshine0316/sembleu verfügbar.