HyperAIHyperAI
il y a 2 mois

Réseaux de Treillis pour la Modélisation de Séquences

Shaojie Bai; J. Zico Kolter; Vladlen Koltun
Réseaux de Treillis pour la Modélisation de Séquences
Résumé

Nous présentons les réseaux treillis, une nouvelle architecture pour la modélisation de séquences. D'une part, un réseau treillis est un réseau de convolution temporelle doté d'une structure spéciale, caractérisée par le partage des poids à travers la profondeur et l'injection directe de l'entrée dans les couches profondes. D'autre part, nous montrons que les réseaux récurrents tronqués sont équivalents aux réseaux treillis avec une structure de parcimonie spéciale dans leurs matrices de poids. Ainsi, les réseaux treillis avec des matrices de poids générales généralisent les réseaux récurrents tronqués. Nous exploitons ces connexions pour concevoir des réseaux treillis performants qui intègrent des éléments structuraux et algorithmiques à la fois des modèles récurrents et convolutifs. Les expériences démontrent que les réseaux treillis surpassent les méthodes actuelles de pointe sur divers benchmarks difficiles, y compris des tâches de modélisation linguistique au niveau des mots et au niveau des caractères, ainsi que des tests sous contrainte conçus pour évaluer la capacité de mémorisation à long terme. Le code est disponible à l'adresse suivante : https://github.com/locuslab/trellisnet .

Réseaux de Treillis pour la Modélisation de Séquences | Articles de recherche récents | HyperAI