2 个月前

通用卷积和循环网络在序列建模中的实证评估

Shaojie Bai; J. Zico Kolter; Vladlen Koltun
通用卷积和循环网络在序列建模中的实证评估
摘要

对于大多数深度学习从业者而言,序列建模几乎等同于循环网络。然而,最近的研究结果表明,在诸如音频合成和机器翻译等任务中,卷积架构可以超越循环网络的表现。面对一个新的序列建模任务或数据集时,应该选择哪种架构?我们对用于序列建模的通用卷积架构和循环架构进行了系统评估。这些模型在一系列常用于评估循环网络的标准任务上进行了测试。我们的研究结果表明,一个简单的卷积架构在多种任务和数据集上优于经典的循环网络(如LSTM),并且表现出更长的有效记忆能力。因此,我们认为应当重新考虑序列建模与循环网络之间的普遍联系,并将卷积网络视为序列建模任务的一个自然起点。为了帮助相关研究工作,我们已将代码发布在 http://github.com/locuslab/TCN 。