6 个月前

摘要

本文重新审视了基于卷积架构进行序列建模的问题。尽管卷积网络与循环网络在序列预测领域均拥有悠久的发展历史，但当前深度学习领域普遍持有的“默认”观点认为，通用的序列建模任务应优先采用循环神经网络（RNN）来处理。本文旨在质疑这一主流假设。具体而言，我们提出一种简单而通用的时序卷积网络（Temporal Convolutional Network, TCN），该架构借鉴了现代卷积神经网络（ConvNet）中的关键设计，如空洞卷积（dilation）和残差连接（residual connections）。实验结果表明，在多种序列建模任务上——包括大量常用于评估循环网络性能的基准任务——TCN的表现优于传统的RNN基线方法（如LSTM、GRU及普通RNN），甚至在某些情况下超越了高度定制化的专门方法。此外，我们进一步揭示，循环网络相较于卷积网络所具有的所谓“无限记忆”优势，在实际应用中并不存在显著体现：事实上，TCN能够实现比其循环对应模型更长的有效历史记忆长度。综上所述，我们认为，是时候重新考虑将卷积网络（ConvNets）作为序列建模的默认首选架构了。

源 PDF