HyperAIHyperAI

Command Palette

Search for a command to run...

Kontinuierliche Sequenzmodellierung neu betrachtet

Vladlen Koltun J. Zico Kolter Shaojie Bai

Zusammenfassung

Diese Arbeit greift das Problem der Sequenzmodellierung mittels konvolutioneller Architekturen erneut auf. Obwohl sowohl konvolutionelle als auch rekurrente Architekturen eine lange Tradition in der Sequenzvorhersage haben, gilt in weiten Teilen der tiefen Lerncommunity derzeit als „Standardannahme“, dass allgemeine Sequenzmodellierung am besten mit rekurrenten Netzwerken bewältigt wird. Ziel dieser Arbeit ist es, diese Annahme in Frage zu stellen. Konkret untersuchen wir ein einfaches, generisches zeitliches Konvolutionssystem (Temporal Convolutional Network, TCN), das Merkmale moderner ConvNet-Architekturen wie Dilatationen und Residual-Verbindungen übernimmt. Wir zeigen, dass das TCN auf einer Vielzahl von Sequenzmodellierungsaufgaben – einschließlich vieler häufig als Benchmark für rekurrente Netzwerke verwendeter Aufgaben – die Baseline-RNN-Methoden (LSTM, GRU und einfache RNNs) übertrifft und gelegentlich sogar hochspezialisierte Ansätze. Darüber hinaus belegen wir, dass der potenzielle Vorteil „unendlicher Gedächtnisfähigkeit“, den RNNs gegenüber TCNs zugeschrieben wird, in der Praxis weitgehend fehlt: TCNs weisen tatsächlich eine längere effektive Historienlänge auf als ihre rekurrenten Gegenstücke. Insgesamt argumentieren wir, dass es möglicherweise an der Zeit ist, ConvNets erneut als die Standardarchitektur für die Sequenzmodellierung in Betracht zu ziehen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kontinuierliche Sequenzmodellierung neu betrachtet | Paper | HyperAI