AMR-Ähnlichkeitsmetriken auf der Grundlage von Prinzipien

Es wurden verschiedene Metriken vorgeschlagen, um abstrakte Bedeutungsrepräsentationen (Abstract Meaning Representation, AMR) miteinander zu vergleichen. Die klassische Smatch-Metrik (Cai und Knight, 2013) aligniert die Variablen zweier Graphen und bewertet die Übereinstimmung von Tripeln. Die neuere SemBleu-Metrik (Song und Gildea, 2019) basiert auf der maschinellen Übersetzungs-Metrik Bleu (Papineni et al., 2002) und steigert die rechnerische Effizienz durch die Aufhebung der Variablen-Alignment-Phase. In diesem Artikel: i) legen wir Kriterien fest, die Forschern eine fundierte Bewertung von Metriken zum Vergleich semantischer Repräsentationen wie AMR ermöglichen; ii) führen wir eine gründliche Analyse von Smatch und SemBleu durch, wobei wir zeigen, dass die letztere einige unerwünschte Eigenschaften aufweist. Beispielsweise verletzt sie die Identität ununterscheidbarer Objekte (identity of indiscernibles) und führt zu Verzerrungen, die schwer kontrollierbar sind; iii) schlagen wir eine neue Metrik, S$^2$match, vor, die gegenüber nur geringfügigen semantischen Abweichungen besonders nachsichtig ist und die Erfüllung aller etablierten Kriterien gezielt anstrebt. Wir bewerten die Eignung dieser Metrik und zeigen ihre Vorteile gegenüber Smatch und SemBleu auf.