HyperAIHyperAI

Command Palette

Search for a command to run...

KERMIT:基于生成插入的序列建模

William Chan; Nikita Kitaev; Kelvin Guu; Mitchell Stern; Jakob Uszkoreit

摘要

我们介绍了KERMIT,这是一种用于序列和序列对生成建模的简单插入方法。KERMIT使用单一神经网络来建模联合分布及其分解(即边缘分布和条件分布),与许多先前的工作不同,它不依赖于数据分布的预设分解。在训练过程中,可以向KERMIT输入配对数据(x,y)(x, y)(x,y)以学习联合分布p(x,y)p(x, y)p(x,y),并可选择性地混入未配对的数据xxxyyy以改进边缘分布p(x)p(x)p(x)p(y)p(y)p(y)。在推理阶段,我们可以访问双向条件分布p(xy)p(x \mid y)p(xy)p(yx)p(y \mid x)p(yx)。我们还可以从联合分布或边缘分布中采样。该模型支持串行全自回归解码和平行部分自回归解码,后者表现出经验上的对数时间复杂度。通过在机器翻译、表示学习和零样本完形填空问答中的实验,我们证明了我们的统一方法能够在广泛的任务中匹配或超过专用最先进系统的性能,而无需进行特定问题的架构调整。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供