11 天前

一种用于学习解耦文本表示的新型互信息估计器

Pierre Colombo, Chloe Clavel, Pablo Piantanida
一种用于学习解耦文本表示的新型互信息估计器
摘要

学习文本数据的解耦表示对于诸多自然语言处理任务(如公平分类、风格迁移和句子生成等)至关重要。现有的主流方法在文本数据背景下,通常依赖于训练一个对抗性判别器(adversary/discriminator),以使得从潜在编码中难以推断出属性值;或者依赖于最小化潜在编码与属性值之间互信息的变分上界。然而,现有方法普遍存在一个关键缺陷:无法对解耦程度(或解耦强度)实现细粒度的精确控制。与对抗性方法相比,尽管后者在训练过程中表现良好且结构简洁,但训练结束后,潜在编码中仍残留相当程度的非目标属性信息。本文提出了一种新的变分上界,用于估计属性与编码器潜在代码之间的互信息。该上界通过Rényi散度来控制近似误差,从而在获得更优解耦表示的同时,实现了对期望解耦程度的精确调控,优于当前针对文本数据提出的最先进方法。此外,该方法在多类别场景下不会出现其他损失函数常见的退化问题。我们在公平分类和文本风格迁移任务中验证了该方法的优越性。此外,本文还提供了新的洞见,揭示了在学习解耦表示过程中,风格迁移效果与生成句子质量之间所存在的多种权衡关系。

一种用于学习解耦文本表示的新型互信息估计器 | 最新论文 | HyperAI超神经