Efficient-VDVAE : Moins, c’est plus

Les VAE hiérarchiques se sont récemment imposés comme une solution fiable pour l’estimation du maximum de vraisemblance. Toutefois, des problèmes d’instabilité et des exigences computationnelles élevées ont freiné l’avancement de la recherche dans ce domaine. Nous proposons des modifications simples au Very Deep VAE (VDVAE) permettant d’accélérer sa convergence jusqu’à 2,6 fois, de réduire jusqu’à 20 fois la charge mémoire et d’améliorer la stabilité durant l’entraînement. Malgré ces modifications, nos modèles atteignent une performance en log-vraisemblance négative comparable ou supérieure à celle des modèles les plus avancés sur les 7 jeux de données d’images couramment utilisés. Nous argumentons également contre l’utilisation des benchmarks à 5 bits pour évaluer les performances des VAE hiérarchiques, en raison des biais indésirables introduits par la quantification à 5 bits. En outre, nous démontrons empiriquement que près de 3 % des dimensions de l’espace latent du VAE hiérarchique suffisent à encoder la majeure partie de l’information image, sans perte de performance, ouvrant ainsi la voie à une utilisation efficace de cet espace latent dans des tâches ultérieures. Nous mettons à disposition notre code source et nos modèles à l’adresse suivante : https://github.com/Rayhane-mamah/Efficient-VDVAE.