Kontinuierliche Sequenzmodellierung neu betrachtet

Diese Arbeit greift das Problem der Sequenzmodellierung mittels konvolutioneller Architekturen erneut auf. Obwohl sowohl konvolutionelle als auch rekurrente Architekturen eine lange Tradition in der Sequenzvorhersage haben, gilt in weiten Teilen der tiefen Lerncommunity derzeit als „Standardannahme“, dass allgemeine Sequenzmodellierung am besten mit rekurrenten Netzwerken bewältigt wird. Ziel dieser Arbeit ist es, diese Annahme in Frage zu stellen. Konkret untersuchen wir ein einfaches, generisches zeitliches Konvolutionssystem (Temporal Convolutional Network, TCN), das Merkmale moderner ConvNet-Architekturen wie Dilatationen und Residual-Verbindungen übernimmt. Wir zeigen, dass das TCN auf einer Vielzahl von Sequenzmodellierungsaufgaben – einschließlich vieler häufig als Benchmark für rekurrente Netzwerke verwendeter Aufgaben – die Baseline-RNN-Methoden (LSTM, GRU und einfache RNNs) übertrifft und gelegentlich sogar hochspezialisierte Ansätze. Darüber hinaus belegen wir, dass der potenzielle Vorteil „unendlicher Gedächtnisfähigkeit“, den RNNs gegenüber TCNs zugeschrieben wird, in der Praxis weitgehend fehlt: TCNs weisen tatsächlich eine längere effektive Historienlänge auf als ihre rekurrenten Gegenstücke. Insgesamt argumentieren wir, dass es möglicherweise an der Zeit ist, ConvNets erneut als die Standardarchitektur für die Sequenzmodellierung in Betracht zu ziehen.