HyperAIHyperAI

Command Palette

Search for a command to run...

Autoencodeurs variationnels hiérarchiques gloutons pour la prédiction vidéo à grande échelle

Bohan Wu Suraj Nair Roberto Martin-Martin Li Fei-Fei Chelsea Finn

Résumé

Un modèle de prédiction vidéo capable de généraliser à des scènes diverses permettrait aux agents intelligents, tels que les robots, d’effectuer une variété de tâches grâce à une planification basée sur ce modèle. Toutefois, bien que les modèles existants de prédiction vidéo aient obtenu des résultats prometteurs sur de petits jeux de données, ils souffrent d’un sous-apprentissage sévère lorsqu’ils sont entraînés sur de grands jeux de données diversifiés. Pour relever ce défi de sous-apprentissage, nous observons tout d’abord que la capacité à entraîner des modèles de prédiction vidéo plus volumineux est souvent freinée par les contraintes mémoire des GPU ou des TPU. Parallèlement, les modèles hiérarchiques à variables latentes profondes peuvent produire des prédictions de meilleure qualité en capturant la stochasticité multi-niveaux des observations futures, mais l’optimisation end-to-end de tels modèles s’avère particulièrement difficile. Notre insight clé est que l’optimisation paresseuse et modulaire des autoencodeurs hiérarchiques peut simultanément surmonter à la fois les contraintes mémoire et les difficultés d’optimisation liées à la prédiction vidéo à grande échelle. Nous introduisons les Autoencodeurs Variationnels Hiérarchiques Paresseux (GHVAEs), une méthode qui apprend des prédictions vidéo de haute fidélité en entraînant de manière paresseuse chaque niveau d’un autoencodeur hiérarchique. Par rapport aux modèles de pointe, les GHVAEs offrent une amélioration de 17 à 55 % en performance de prédiction sur quatre jeux de données vidéo, un taux de réussite 35 à 40 % plus élevé sur des tâches réelles effectuées par des robots, et permettent d’améliorer de manière monotone les performances en ajoutant simplement davantage de modules.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp