Temporal FiLM : Capturer les dépendances de séquence à longue portée grâce à des modulations feature-wise.

Apprendre des représentations capables de capturer précisément les dépendances à longue portée dans les entrées séquentielles — notamment le texte, l’audio et les données génomiques — constitue un problème fondamental en apprentissage profond. Les modèles convolutionnels à feed-forward ne prennent en compte que les interactions entre caractéristiques à l’intérieur de champs réceptifs finis, tandis que les architectures récurrentes peuvent être lentes et difficiles à entraîner en raison du phénomène de disparition des gradients. Dans cet article, nous proposons Temporal Feature-Wise Linear Modulation (TFiLM), un nouveau composant architectural inspiré de la normalisation par lot adaptative et de ses extensions, qui utilise un réseau de neurones récurrent pour moduler les activations d’un modèle convolutionnel. Cette approche étend le champ réceptif des modèles séquentiels convolutionnels avec un surcoût computationnel minimal. Expérimentalement, nous constatons que TFiLM améliore significativement la vitesse d’apprentissage et la précision des réseaux neuronaux à feed-forward sur une variété de tâches génératives et discriminatives, notamment la classification de texte et la super-résolution audio.