Seq-U-Net : Un réseau U-Net causal unidimensionnel pour la modélisation de séquences efficace

Les réseaux de neurones convolutionnels (CNN) avec des filtres dilatés, tels que le Wavenet ou le Réseau de Convolution Temporelle (RCT), ont montré de bons résultats dans diverses tâches de modélisation de séquences. Cependant, la modélisation efficace des dépendances à long terme dans ces séquences reste un défi. Bien que le champ récepteur de ces modèles augmente exponentiellement avec le nombre de couches, le calcul des convolutions sur des séquences très longues de caractéristiques à chaque couche est intensif en temps et en mémoire, ce qui empêche l'utilisation de champs récepteurs plus longs en pratique. Pour augmenter l'efficacité, nous utilisons l'hypothèse des « caractéristiques lentes » selon laquelle de nombreux traits d'intérêt varient lentement au fil du temps. À cette fin, nous utilisons une architecture U-Net qui calcule les caractéristiques à plusieurs échelles temporelles et l'adaptons à notre scénario auto-régressif en rendant les convolutions causales. Nous appliquons notre modèle (« Seq-U-Net ») à diverses tâches, notamment la génération de langage et d'audio. Comparativement au RCT et au Wavenet, notre réseau économise constamment de la mémoire et du temps de calcul, avec des accélérations supérieures à 4 fois pour l'entraînement et l'inférence lors de l'expérience de génération audio, tout en obtenant une performance comparable dans toutes les tâches.