Autoencodeurs Variationnels à Flux Conditionnels pour la Prédiction de Séquences Structurées

La prédiction des états futurs de l'environnement et des agents interactifs est une compétence clé requise pour que les agents autonomes puissent opérer avec succès dans le monde réel. Les travaux antérieurs sur la prédiction de séquences structurées basée sur des modèles à variables latentes imposent une loi gaussienne unimodale standard sur les variables latentes. Cela induit un biais de modèle important qui rend difficile la capture complète de la multimodalité de la distribution des états futurs. Dans ce travail, nous introduisons les Conditional Flow Variational Autoencoders (CF-VAE) en utilisant notre nouvelle loi d'échantillonnage conditionnelle basée sur les flux normalisants pour capturer des distributions conditionnelles complexes et multimodales, permettant ainsi une prédiction efficace de séquences structurées. De plus, nous proposons deux nouveaux schémas de régularisation qui stabilisent l'entraînement et traitent le effondrement du posteérieur pour assurer une formation stable et une meilleure adéquation à la distribution cible des données. Nos expériences sur trois jeux de données de prédiction de séquences structurées multimodales -- Séquences MNIST, Drone Stanford et HighD -- montrent que la méthode proposée obtient des résultats d'état de l'art selon différents critères d'évaluation.