Temporal FiLM : Capture des dépendances à long terme dans les séquences avec des modulations par fonctionnalité

L'apprentissage de représentations qui capturent avec précision les dépendances à long terme dans des entrées séquentielles -- y compris le texte, l'audio et les données génomiques -- est un problème clé en apprentissage profond. Les modèles de convolution à alimentation directe ne capturent que les interactions de caractéristiques au sein de champs récepteurs finis, tandis que les architectures récurrentes peuvent être lentes et difficiles à entraîner en raison des gradients qui s'évanouissent. Dans cet article, nous proposons la Modulation Linéaire Temporelle par Caractéristique (TFiLM) -- une nouvelle composante architecturale inspirée par la normalisation adaptative par lot et ses extensions -- qui utilise un réseau neuronal récurrent pour modifier les activations d'un modèle de convolution. Cette approche élargit le champ récepteur des modèles de séquence convolutifs avec un surcoût computationnel minimal. Expérimentalement, nous constatons que TFiLM améliore considérablement la vitesse d'apprentissage et la précision des réseaux neuronaux à alimentation directe sur une gamme de tâches d'apprentissage génératif et discriminatif, notamment la classification de texte et la super-résolution audio.