17 天前

先训练以生成,再生成以训练:面向少样本自然语言推理的UnifiedSynT5

Sourav Banerjee, Anush Mahajan, Ayushi Agarwal, Eishkaran Singh
先训练以生成,再生成以训练:面向少样本自然语言推理的UnifiedSynT5
摘要

自然语言推断(Natural Language Inference, NLI)任务要求识别句子对之间的语义关系,通常分为蕴含(entailment)、矛盾(contradiction)和中立(neutrality)三类。尽管当前最先进(State-of-the-Art, SOTA)的模型Entailment Few-Shot Learning(EFL)在斯坦福自然语言推断(Stanford Natural Language Inference, SNLI)数据集上已达到93.1%的准确率,但其进一步提升受到数据集固有局限性的制约。为应对这一挑战,我们提出一种新颖方法,通过合成数据增强来提升数据集的多样性与复杂性。本文提出UnitedSynT5,作为EFL的高级扩展模型,该模型基于T5架构的生成器合成额外的前提-假设对,并经过严格清洗后融入训练数据。这些增强样本在EFL框架内进行处理,通过将标签直接嵌入假设中以保证一致性。我们在扩展后的数据集上训练GTR-T5-XL模型,在SNLI数据集上取得94.7%的准确率,在E-SNLI数据集上达到94.0%,在MultiNLI数据集上达到92.6%,均超越了先前的最先进模型。本研究证实了合成数据增强在提升NLI模型性能方面的巨大潜力,为自然语言理解任务的进一步发展提供了可行路径。

先训练以生成,再生成以训练:面向少样本自然语言推理的UnifiedSynT5 | 最新论文 | HyperAI超神经