
摘要
评估AMR解析准确性涉及比较成对的AMR图。主要的评估指标SMATCH(Cai和Knight,2013)通过贪婪爬山算法在两个AMR的节点之间寻找一对一映射,这可能导致搜索错误。我们提出了一种稳健的指标SEMBLEU,该指标扩展了BLEU(Papineni等,2002)以适用于AMR图。SEMBLEU不会受到搜索错误的影响,并且除了考虑局部对应关系外,还考虑非局部对应关系。SEMBLEU完全由内容驱动,并惩罚系统输出未能保留输入大部分信息的情况。初步实验在句子和语料库层面上均表明,SEMBLEU与人类判断的一致性略高于SMATCH。我们的代码可在http://github.com/freesunshine0316/sembleu获取。