17 天前
BioNLI:利用词汇语义约束生成用于对抗样本的生物医学自然语言推理数据集
Mohaddeseh Bastan, Mihai Surdeanu, Niranjan Balasubramanian

摘要
自然语言推理(Natural Language Inference, NLI)在生物医学领域的复杂决策中具有关键作用。例如,一个核心问题在于:某一给定的生物医学机制是否得到了实验证据的支持?这一问题可被视为一个NLI任务,但目前尚无直接可用的数据集来解决该问题。其主要挑战在于,人工构建具有信息量的负例样本在该任务中既困难又成本高昂。为此,我们提出了一种新颖的半监督方法,该方法从现有的生物医学数据集中自动构建NLI数据集,这些数据集在论文摘要中配对了生物机制与相应的实验证据。我们通过九种不同的策略生成多样化的负例样本,这些策略通过对底层机制结构进行操控实现,包括基于规则的方法(如反转相互作用中实体的角色),以及更重要的是,利用神经逻辑解码系统中的逻辑约束作为扰动手段。我们采用该方法构建了一个面向生物医学领域NLI任务的新数据集,命名为BioNLI,并在此数据集上对两种最先进的生物医学分类器进行了基准测试。实验结果表明,最佳F1分数约为70分的中段水平,反映出该任务的高难度。尤为重要的是,不同类别负例样本上的表现差异显著:对于简单的角色替换负例,F1分数高达97%;而对于通过神经逻辑解码生成的负例,其性能仅略高于随机猜测水平。