HyperAIHyperAI

Command Palette

Search for a command to run...

Désentrelacer plusieurs caractéristiques dans des séquences vidéo à l’aide de processus gaussiens dans des autoencodeurs variationnels

Sarthak Bhagat Shagun Uppal Zhuyun Yin Nengli Lim

Résumé

Nous introduisons MGP-VAE (Multi-disentangled-features Gaussian Processes Variational AutoEncoder), un autoencodeur variationnel qui utilise des processus Gaussiens (GP) pour modéliser l’espace latent dans le cadre de l’apprentissage non supervisé de représentations désentrelacées sur des séquences vidéo. Nous améliorons les travaux antérieurs en proposant un cadre permettant de désentrelacer plusieurs caractéristiques, statiques ou dynamiques. Plus précisément, nous utilisons des mouvements browniens fractionnaires (fBM) et des ponts browniens (BB) afin d’imposer une structure de corrélation entre cadres dans chaque canal indépendant, et démontrons que la variation de cette structure permet de capturer différents facteurs de variation présents dans les données. Nous évaluons la qualité de nos représentations à l’aide d’expériences menées sur trois jeux de données publics, et quantifions l’amélioration obtenue via une tâche de prédiction vidéo. En outre, nous introduisons une nouvelle fonction de perte géodésique qui prend en compte la courbure de la variété des données afin d’améliorer l’apprentissage. Nos expériences montrent que la combinaison des représentations améliorées avec cette fonction de perte innovante permet à MGP-VAE de surpasser les méthodes de référence en prédiction vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp