HyperAIHyperAI
vor 2 Monaten

Trellis-Netzwerke für Sequenzmodellierung

Shaojie Bai; J. Zico Kolter; Vladlen Koltun
Trellis-Netzwerke für Sequenzmodellierung
Abstract

Wir stellen Trellis-Netze vor, eine neue Architektur für die Modellierung von Sequenzen. Einerseits ist ein Trellis-Netz ein zeitliches Faltungsnetzwerk (temporal convolutional network) mit spezieller Struktur, gekennzeichnet durch das Binden von Gewichten über die Tiefe hinweg und die direkte Injektion des Eingangs in tiefe Schichten. Andererseits zeigen wir, dass abgeschnittene rekurrente Netze (truncated recurrent networks) äquivalent zu Trellis-Netzen mit spezieller Sparsitätsstruktur in ihren Gewichtsmatrizen sind. Daher verallgemeinern Trellis-Netze mit allgemeinen Gewichtsmatrizen abgeschnittene rekurrente Netze. Wir nutzen diese Verbindungen, um hochleistungsfähige Trellis-Netze zu entwerfen, die strukturelle und algorithmische Elemente sowohl von rekurrenten als auch von Faltungsmodellen aufnehmen. Experimente belegen, dass Trellis-Netze den aktuellen Stand der Technik auf einer Vielzahl anspruchsvoller Benchmarks übertreffen, einschließlich wortbasierter Sprachmodelierungsaufgaben und zeichenbasierter Sprachmodelierungsaufgaben sowie Stress-Tests zur Bewertung der Langzeitgedächtnisbehandlung. Der Code ist unter https://github.com/locuslab/trellisnet verfügbar.

Trellis-Netzwerke für Sequenzmodellierung | Neueste Forschungsarbeiten | HyperAI