
摘要
由于其他语言缺乏足够的训练数据,监督式开放信息抽取(OpenIE)的研究进展主要局限于英语。本文探索了自动将英文文本转换为其他语言以用于训练OpenIE系统的技术。为此,我们提出了一种名为对齐增强型约束翻译(Alignment-Augmented Constrained Translation, AACTrans)的模型,该模型能够一致地翻译英文句子及其对应的抽取结果,确保在翻译过程中不改变词汇或语义含义——这是独立翻译可能带来的问题。利用AACTrans生成的数据,我们训练了一种新型两阶段生成式OpenIE模型,命名为Gen2OIE。该模型对每个句子分两阶段输出:第一阶段识别关系,第二阶段生成包含该关系的所有信息抽取结果。Gen2OIE通过一种可推广至多种语言的训练数据转换技术,显著提升了关系覆盖范围,这与现有模型依赖英语特有训练损失的方法形成对比。在西班牙语、葡萄牙语、中文、印地语和泰卢固语共五种语言上的评估结果表明,采用AACTrans数据训练的Gen2OIE模型在F1分数上相较于先前系统取得了6%至25%的性能提升。