HyperAIHyperAI
il y a 3 mois

Modélisation de séquences par convolution révisée

{Vladlen Koltun, J. Zico Kolter, Shaojie Bai}
Modélisation de séquences par convolution révisée
Résumé

Cet article reprend le problème de la modélisation de séquences à l’aide d’architectures convolutionnelles. Bien que les architectures convolutionnelles et récurrentes aient une longue histoire dans la prédiction de séquences, l’approche « par défaut » adoptée par une grande partie de la communauté du deep learning considère actuellement que la modélisation générique de séquences est le mieux traitée par des réseaux récurrents. L’objectif de ce travail est de remettre en question cette hypothèse. Plus précisément, nous étudions un réseau convolutionnel temporel (TCN) simple et générique, qui intègre des caractéristiques des architectures ConvNet modernes, telles que la dilatation et les connexions résiduelles. Nous montrons que sur une variété de tâches de modélisation de séquences — y compris de nombreuses tâches couramment utilisées comme benchmarks pour évaluer les réseaux récurrents — le TCN surpasser les méthodes de base basées sur les RNN (LSTM, GRU et RNN classiques), et parfois même des approches hautement spécialisées. Nous démontrons également que l’avantage potentiel « à mémoire infinie » que possèdent les RNN par rapport aux TCN est en grande partie absent en pratique : les TCN présentent en effet une taille d’historique efficace plus longue que leurs homologues récurrents. Dans son ensemble, nous soutenons qu’il pourrait être temps de (re)considérer les ConvNets comme l’architecture « par défaut » pour la modélisation de séquences.

Modélisation de séquences par convolution révisée | Articles de recherche | HyperAI