17 天前
标签文本化与蕴含关系用于高效的零样本与少样本关系抽取
Oscar Sainz, Oier Lopez de Lacalle, Gorka Labaka, Ander Barrena, Eneko Agirre

摘要
关系抽取系统通常需要大量标注样本,而人工标注成本高昂。在本研究中,我们将关系抽取任务重新定义为文本蕴含任务,仅需每种关系花费不到15分钟即可手工构建简洁的语义化表达(verbalizations)。该系统基于一个预训练的文本蕴含模型,可在无需任何训练样本(零样本)的情况下直接使用,也可在少量标注数据上进一步微调(少样本或全监督训练)。在TACRED数据集上的实验表明,该方法在零样本设置下达到63%的F1值;当每类关系仅有16个标注样本时,F1提升至69%,较相同条件下表现最佳的监督系统高出17个百分点;仅比当前最优水平低4个百分点(后者使用了20倍的训练数据)。此外,我们还发现,采用更大规模的蕴含模型可显著提升性能,零样本情形下最高可提升12个百分点,使得在完全训练后,该方法在TACRED数据集上取得了迄今最优的结果。分析表明,该方法在少样本条件下尤其擅长区分不同关系类型,而在低数据场景下性能差异主要源于对“无关系”样本的准确识别能力。