3 个月前

卷积序列建模的再思考

{Vladlen Koltun, J. Zico Kolter, Shaojie Bai}
卷积序列建模的再思考
摘要

本文重新审视了基于卷积架构进行序列建模的问题。尽管卷积网络与循环网络在序列预测领域均拥有悠久的发展历史,但当前深度学习领域普遍持有的“默认”观点认为,通用的序列建模任务应优先采用循环神经网络(RNN)来处理。本文旨在质疑这一主流假设。具体而言,我们提出一种简单而通用的时序卷积网络(Temporal Convolutional Network, TCN),该架构借鉴了现代卷积神经网络(ConvNet)中的关键设计,如空洞卷积(dilation)和残差连接(residual connections)。实验结果表明,在多种序列建模任务上——包括大量常用于评估循环网络性能的基准任务——TCN的表现优于传统的RNN基线方法(如LSTM、GRU及普通RNN),甚至在某些情况下超越了高度定制化的专门方法。此外,我们进一步揭示,循环网络相较于卷积网络所具有的所谓“无限记忆”优势,在实际应用中并不存在显著体现:事实上,TCN能够实现比其循环对应模型更长的有效历史记忆长度。综上所述,我们认为,是时候重新考虑将卷积网络(ConvNets)作为序列建模的默认首选架构了。