HyperAIHyperAI
il y a 9 jours

Réseaux de neurones LSTM à train tensoriel convolutif pour l'apprentissage spatio-temporel

Jiahao Su, Wonmin Byeon, Jean Kossaifi, Furong Huang, Jan Kautz, Animashree Anandkumar
Réseaux de neurones LSTM à train tensoriel convolutif pour l'apprentissage spatio-temporel
Résumé

L’apprentissage à partir de données spatio-temporelles présente de nombreuses applications, telles que l’analyse du comportement humain, le suivi d’objets, la compression vidéo ou encore la simulation physique. Toutefois, les méthodes existantes peinent encore à atteindre de bons résultats sur des tâches vidéo exigeantes, comme la prévision à long terme. Cela s’explique par le fait que ces tâches complexes exigent l’apprentissage de corrélations spatio-temporelles à long terme au sein des séquences vidéo. Dans cet article, nous proposons un modèle de LSTM convolutif d’ordre supérieur capable d’apprendre efficacement ces corrélations, tout en maintenant une représentation concise de l’historique. Ceci est réalisé grâce à un nouveau module de train tensoriel, qui effectue la prédiction en combinant des caractéristiques convolutives au fil du temps. Pour rendre cette approche réalisable en termes de contraintes computationnelles et mémoire, nous introduisons une nouvelle décomposition convolutive du train tensoriel pour le modèle d’ordre supérieur. Cette décomposition réduit la complexité du modèle en approximant conjointement une séquence de noyaux convolutifs par une factorisation en train tensoriel de faible rang. En conséquence, notre modèle surpasse les approches existantes tout en utilisant uniquement une fraction des paramètres, y compris par rapport aux modèles de base. Nos résultats atteignent un niveau d’expertise (state-of-the-art) sur une large gamme d’applications et de jeux de données, notamment la prédiction vidéo à plusieurs étapes sur les jeux de données Moving-MNIST-2 et KTH, ainsi que la reconnaissance précoce d’activités sur le jeu de données Something-Something V2.