2 个月前
研究文章中科学概念的领域无关提取
Arthur Brack; Jennifer D'Souza; Anett Hoppe; Sören Auer; Ralph Ewerth

摘要
我们研究了一项新颖的任务,即从学术文章摘要中提取领域无关的科学概念,并提出了两项贡献。首先,我们通过系统化的注释过程确定了一组通用的科学概念。这组概念被用于在短语层面标注来自科学、技术和医学10个领域的科学摘要语料库,该工作是在领域专家的合作下完成的。生成的数据集用于一系列基准实验,旨在(a)为这项任务提供基线性能,(b)考察不同领域之间的概念可迁移性。其次,我们介绍了两个作为基线的深度学习系统。特别是,我们提出使用主动学习来应对任务中的不同领域问题。实验结果表明:(1)非专家在咨询领域专家后可以达成较高的共识;(2)基线系统实现了相当高的F1分数;(3)主动学习使所需训练数据量几乎减少了一半。