
摘要
我们提出一种生成英文问题改写句的方法,该方法在保持原始语义意图不变的前提下,采用不同的表面形式进行表达。我们的模型结合了精心设计的训练目标与严谨的信息瓶颈机制,以诱导出一个能够将语义与形式解耦的潜在编码空间。通过训练一个编码器-解码器模型,使其能够从语义相同但表面形式不同的改写句中重建原始问题,并利用具有相同表面形式的示例进行约束,从而实现语义与形式编码空间的分离。我们采用向量量化变分自编码器(Vector-Quantized Variational Autoencoder)将表面形式表示为一组离散的潜在变量,从而在测试阶段可通过分类器选择不同的表面形式。关键在于,本方法无需依赖外部的目标示例源。大量实验与人工评估表明,相较于以往方法,我们的模型能够在语义保持与句法新颖性之间实现更优的平衡。