HyperAIHyperAI

Command Palette

Search for a command to run...

Trellis-Netzwerke für Sequenzmodellierung

Shaojie Bai J. Zico Kolter Vladlen Koltun

Zusammenfassung

Wir stellen Trellis-Netze vor, eine neue Architektur für die Modellierung von Sequenzen. Einerseits ist ein Trellis-Netz ein zeitliches Faltungsnetzwerk (temporal convolutional network) mit spezieller Struktur, gekennzeichnet durch das Binden von Gewichten über die Tiefe hinweg und die direkte Injektion des Eingangs in tiefe Schichten. Andererseits zeigen wir, dass abgeschnittene rekurrente Netze (truncated recurrent networks) äquivalent zu Trellis-Netzen mit spezieller Sparsitätsstruktur in ihren Gewichtsmatrizen sind. Daher verallgemeinern Trellis-Netze mit allgemeinen Gewichtsmatrizen abgeschnittene rekurrente Netze. Wir nutzen diese Verbindungen, um hochleistungsfähige Trellis-Netze zu entwerfen, die strukturelle und algorithmische Elemente sowohl von rekurrenten als auch von Faltungsmodellen aufnehmen. Experimente belegen, dass Trellis-Netze den aktuellen Stand der Technik auf einer Vielzahl anspruchsvoller Benchmarks übertreffen, einschließlich wortbasierter Sprachmodelierungsaufgaben und zeichenbasierter Sprachmodelierungsaufgaben sowie Stress-Tests zur Bewertung der Langzeitgedächtnisbehandlung. Der Code ist unter https://github.com/locuslab/trellisnet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Trellis-Netzwerke für Sequenzmodellierung | Paper | HyperAI