6 个月前

摘要

对开放信息抽取（OIE）系统的内在评估通常采用两种方式：人工评估（由人工评价者判断抽取结果的正确性）或基于标准化基准的自动评估。后者虽然成本更低，但可靠性较差，主要原因在于现有OIE基准数据集的不完整性：其标准答案（ground truth）并未涵盖同一事实的所有可接受表达形式，从而导致对模型性能的评估不可靠。此外，现有的OIE基准仅适用于英语。为此，本文提出BenchIE：一个面向英语、中文和德语的OIE系统全面评估基准与评估框架。与现有基准不同，BenchIE采用基于事实的评估范式，即充分考虑抽取结果的信息等价性——其标准答案以“事实同义词集”（fact synsets）的形式组织，每个同义词集全面列举了同一事实的所有可接受表面表达形式。同时，考虑到OIE在实际下游任务中的常见应用需求，BenchIE具有多维度特性：我们构建了多个针对不同评估维度的基准变体，例如抽取结果的紧凑性或最小性等。利用BenchIE对多个前沿OIE系统进行评测，我们发现这些系统在实际表现上显著低于现有基准所显示的水平。BenchIE（包含数据与评估代码）已公开发布于 https://github.com/gkiril/benchie。

源 PDF