Autoencodeurs variationnels hiérarchiques gloutons pour la prédiction vidéo à grande échelle

Un modèle de prédiction vidéo capable de généraliser à des scènes diverses permettrait aux agents intelligents, tels que les robots, d’effectuer une variété de tâches grâce à une planification basée sur ce modèle. Toutefois, bien que les modèles existants de prédiction vidéo aient obtenu des résultats prometteurs sur de petits jeux de données, ils souffrent d’un sous-apprentissage sévère lorsqu’ils sont entraînés sur de grands jeux de données diversifiés. Pour relever ce défi de sous-apprentissage, nous observons tout d’abord que la capacité à entraîner des modèles de prédiction vidéo plus volumineux est souvent freinée par les contraintes mémoire des GPU ou des TPU. Parallèlement, les modèles hiérarchiques à variables latentes profondes peuvent produire des prédictions de meilleure qualité en capturant la stochasticité multi-niveaux des observations futures, mais l’optimisation end-to-end de tels modèles s’avère particulièrement difficile. Notre insight clé est que l’optimisation paresseuse et modulaire des autoencodeurs hiérarchiques peut simultanément surmonter à la fois les contraintes mémoire et les difficultés d’optimisation liées à la prédiction vidéo à grande échelle. Nous introduisons les Autoencodeurs Variationnels Hiérarchiques Paresseux (GHVAEs), une méthode qui apprend des prédictions vidéo de haute fidélité en entraînant de manière paresseuse chaque niveau d’un autoencodeur hiérarchique. Par rapport aux modèles de pointe, les GHVAEs offrent une amélioration de 17 à 55 % en performance de prédiction sur quatre jeux de données vidéo, un taux de réussite 35 à 40 % plus élevé sur des tâches réelles effectuées par des robots, et permettent d’améliorer de manière monotone les performances en ajoutant simplement davantage de modules.