2 个月前
KERMIT:基于生成插入的序列建模
William Chan; Nikita Kitaev; Kelvin Guu; Mitchell Stern; Jakob Uszkoreit

摘要
我们介绍了KERMIT,这是一种用于序列和序列对生成建模的简单插入方法。KERMIT使用单一神经网络来建模联合分布及其分解(即边缘分布和条件分布),与许多先前的工作不同,它不依赖于数据分布的预设分解。在训练过程中,可以向KERMIT输入配对数据$(x, y)$以学习联合分布$p(x, y)$,并可选择性地混入未配对的数据$x$或$y$以改进边缘分布$p(x)$或$p(y)$。在推理阶段,我们可以访问双向条件分布$p(x \mid y)$和$p(y \mid x)$。我们还可以从联合分布或边缘分布中采样。该模型支持串行全自回归解码和平行部分自回归解码,后者表现出经验上的对数时间复杂度。通过在机器翻译、表示学习和零样本完形填空问答中的实验,我们证明了我们的统一方法能够在广泛的任务中匹配或超过专用最先进系统的性能,而无需进行特定问题的架构调整。