Flow Matching dans l'espace latent

Le flow matching est un cadre récent de formation des modèles génératifs qui présente des performances empiriques remarquables tout en étant relativement plus facile à entraîner que les modèles basés sur la diffusion. Malgré ses avantages, les méthodes antérieures font encore face à des défis liés aux coûts computationnels élevés et au grand nombre d’évaluations de fonctions requises par les solveurs standards dans l’espace pixel. En outre, bien que les méthodes génératives basées sur l’espace latent aient connu un grand succès ces dernières années, ce type de modèle reste peu exploré dans ce domaine. Dans ce travail, nous proposons d’appliquer le flow matching dans les espaces latents d’autoencodeurs préentraînés, offrant ainsi une meilleure efficacité computationnelle et une meilleure évolutivité pour la synthèse d’images à haute résolution. Cela permet d’entraîner des modèles par flow matching sur des ressources computationnelles limitées tout en préservant qualité et flexibilité. En outre, notre travail constitue une contribution pionnière dans l’intégration de diverses conditions dans le flow matching pour des tâches de génération conditionnelle, notamment la génération d’images conditionnées par étiquettes, le remplissage d’images (image inpainting) et la génération d’images à partir de descriptions sémantiques. À travers des expériences étendues, notre approche démontre son efficacité à la fois sur le plan quantitatif et qualitatif sur plusieurs jeux de données, tels que CelebA-HQ, FFHQ, LSUN Church & Bedroom et ImageNet. Nous fournissons également une analyse théorique contrôlant la distance de Wasserstein-2 entre la distribution latente reconstruite et la distribution réelle des données, montrant qu’elle est majorée par l’objectif de flow matching latent. Notre code sera disponible à l’adresse suivante : https://github.com/VinAIResearch/LFM.git.