HyperAIHyperAI
vor 2 Monaten

Eine empirische Bewertung generischer Faltungsschichten und rekurrenter Netzwerke für Sequenzmodellierung

Shaojie Bai; J. Zico Kolter; Vladlen Koltun
Eine empirische Bewertung generischer Faltungsschichten und rekurrenter Netzwerke für Sequenzmodellierung
Abstract

Für die meisten Praktiker im Bereich des tiefen Lernens ist sequenzielles Modellieren synonym mit rekurrenten Netzen. Dennoch deuten jüngste Ergebnisse darauf hin, dass Faltungsbasierte Architekturen auf Aufgaben wie Audio-Synthese und maschinelle Übersetzung bessere Leistungen erzielen können als rekurrente Netze. Angesichts einer neuen sequenziellen Modellierungsaufgabe oder eines neuen Datensatzes stellt sich die Frage, welche Architektur man verwenden sollte. Wir führen eine systematische Bewertung generischer faltungsbasierter und rekurrenter Architekturen für sequenzielle Modellierung durch. Die Modelle werden anhand eines breiten Spektrums von Standardaufgaben evaluiert, die häufig zur Benchmarking von rekurrenten Netzen verwendet werden. Unsere Ergebnisse zeigen, dass eine einfache faltungs-basierte Architektur kanonische rekurrente Netzwerke wie LSTMs in einem vielfältigen Bereich von Aufgaben und Datensätzen übertrifft und gleichzeitig ein längeres effektives Gedächtnis aufweist. Wir schließen daraus, dass der übliche Zusammenhang zwischen sequenzieller Modellierung und rekurrenten Netzen überdacht werden sollte und dass Faltungsbasierte Netzwerke als natürlicher Ausgangspunkt für sequenzielle Modellierungsaufgaben angesehen werden sollten. Um verwandte Arbeiten zu unterstützen, haben wir den Code unter http://github.com/locuslab/TCN bereitgestellt.