17 天前

DetIE:受目标检测启发的多语言开放信息抽取

Michael Vasilkovsky, Anton Alekseev, Valentin Malykh, Ilya Shenbin, Elena Tutubalina, Dmitriy Salikhov, Mikhail Stepnov, Andrey Chertok, Sergey Nikolenko
DetIE:受目标检测启发的多语言开放信息抽取
摘要

当前最先进的开放信息抽取(OpenIE)神经方法通常采用自回归或基于谓词的迭代方式逐条提取三元组(或元组),以避免产生重复结果。在本工作中,我们提出了一种不同的解决方案,其性能可与现有方法相当甚至更优。具体而言,我们受计算机视觉中目标检测算法的启发,提出了一种新型的单次遍历(single-pass)OpenIE方法。该方法采用基于二分图匹配的顺序无关损失函数(order-agnostic loss),强制模型输出唯一预测结果,并结合基于Transformer的仅编码器架构(encoder-only architecture)进行序列标注。所提出的模型在推理速度上显著提升,在标准基准测试中,无论是质量指标还是推理时间,均展现出优于或相当的性能表现。在CaRB数据集上以OIE2016评估标准进行测试,该模型取得了67.7%的F1分数,刷新了当前最优性能记录,且推理速度比此前的最先进模型快达3.35倍。此外,我们还评估了该模型的多语言版本在零样本(zero-shot)设置下对两种语言的表现,并提出一种生成合成多语言数据的策略,用于针对特定语言进行微调。在该设置下,我们在多语言Re-OIE2016基准上实现了15%的性能提升,葡萄牙语和西班牙语的F1分数均达到75%。相关代码与模型已开源,地址为:https://github.com/sberbank-ai/DetIE。