7 天前

基于对抗性 paraphrasing 任务的释义检测性能提升

Animesh Nighojkar, John Licato
基于对抗性 paraphrasing 任务的释义检测性能提升
摘要

如果两个句子具有相同的语义,那么它们在推理属性上应当是等价的,即彼此之间应具有文本蕴含关系(textual entailment)。然而,目前广泛使用的许多释义(paraphrase)数据集,其判断标准主要依赖于词汇重叠和句法结构的相似性。我们能否改用一种更注重句子推理属性的方法来识别释义,从而减少对词汇和句法相似性的过度依赖?针对这一问题,我们引入了对抗性范式,并提出一种全新的对抗性数据集构建方法——对抗性释义任务(Adversarial Paraphrasing Task, APT)。该任务要求参与者生成在语义上等价(即相互蕴含)但词汇和句法结构差异显著的释义句对。这些句对可用于测试释义识别模型——现有模型在此类数据上仅能取得接近随机水平的准确率,同时也为模型的性能提升提供了训练基础。为加速数据集生成,我们进一步探索了基于T5模型的自动化实现方案,结果表明,自动生成的对抗性释义数据集同样能有效提升模型性能。本文讨论了该方法对释义检测任务的深远影响,并公开发布所构建的数据集,旨在推动释义检测模型更准确地识别句子层面的语义等价性。

基于对抗性 paraphrasing 任务的释义检测性能提升 | 最新论文 | HyperAI超神经