
要約
AMR(意味表現グラフ)解析の精度評価は、AMRグラフのペアを比較することによって行われます。主要な評価指標であるSMATCH(CaiとKnight, 2013)は、貪欲なヒルクライミングアルゴリズムを使用して2つのAMRのノード間の一対一対応を探しますが、これにより探索エラーが発生することがあります。本研究では、BLEU(Papineniら, 2002)をAMRに拡張した堅牢な指標SEMBLEUを提案します。SEMBLEUは探索エラーに影響を受けず、局所的な対応だけでなく非局所的な対応も考慮します。SEMBLEUは完全に内容駆動型であり、システムの出力が入力から大部分の情報を保存しない場合に罰則を与えます。文レベルおよびコーパスレベルでの初期実験結果によると、SEMBLEUはSMATCHよりもやや高い人間の判断との一致性を示しています。当該コードはhttp://github.com/freesunshine0316/sembleuで公開されています。