
摘要
为比较抽象 meaning representation(AMR)图,已有多种度量指标被提出。经典的 Smatch 指标(Cai 和 Knight,2013)通过匹配两图中的变量并评估三元组的一致性来衡量相似性。近期提出的 SemBleu 指标(Song 和 Gildea,2019)借鉴了机器翻译领域的 Bleu 指标(Papineni 等,2002)思想,通过省略变量对齐步骤显著提升了计算效率。本文主要贡献如下:i)我们提出了一套系统性的评估标准,使研究者能够对用于比较语义表示(如 AMR)的度量指标进行严谨、有原则的评估;ii)我们对 Smatch 与 SemBleu 进行了深入分析,发现 SemBleu 存在若干 undesirable(不理想)的性质。例如,该指标不满足“不可区分者的同一性”(identity of indiscernibles)原则,并引入了难以控制的偏差;iii)我们提出一种新型度量指标 S²match,该指标对语义上的微小差异更具宽容性,同时致力于满足前述所有评估标准。我们对 S²match 的适用性进行了全面评估,并实证展示了其相较于 Smatch 和 SemBleu 的显著优势。