Apprentissage du modèle énergétique par enseignement Dual-MCMC

Cet article étudie le problème fondamental d’apprentissage des modèles à énergie (Energy-Based Models, EBM). L’apprentissage d’un EBM peut être réalisé via l’estimation du maximum de vraisemblance (Maximum Likelihood Estimation, MLE), qui implique généralement un échantillonnage par chaîne de Markov Monte Carlo (MCMC), comme la dynamique de Langevin. Toutefois, la dynamique de Langevin initialisée aléatoirement peut s’avérer difficile à mettre en œuvre en pratique et peine à mélanger efficacement. Cela motive l’exploration d’une approche d’apprentissage conjoint avec un modèle générateur, ce dernier servant de modèle complémentaire afin de contourner l’échantillonnage MCMC. Toutefois, une telle méthode peut être moins précise que l’approche MCMC et entraîner un apprentissage biaisé de l’EBM. Bien que le modèle générateur puisse également servir d’initialiseur pour améliorer l’échantillonnage MCMC, son apprentissage peut être biaisé, car il ne s’ajuste qu’à l’EBM et n’a pas accès aux exemples empiriques. Ce biais dans l’apprentissage du générateur peut limiter le potentiel d’apprentissage de l’EBM. Pour remédier à ce problème, nous proposons un cadre d’apprentissage conjoint qui intègre de manière itérative l’algorithme d’apprentissage par maximum de vraisemblance pour à la fois l’EBM et le modèle générateur complémentaire. Plus précisément, le modèle générateur est appris par MLE afin de s’ajuster à la fois à l’EBM et à la distribution empirique des données, ce qui en fait un initialiseur plus informatif pour l’échantillonnage MCMC de l’EBM. L’apprentissage du générateur à partir d’exemples observés nécessite généralement l’inférence de la postérieure du générateur. Pour garantir une inférence précise et efficace, nous adoptons un échantillonnage postérieur MCMC et introduisons un modèle d’inférence complémentaire pour initialiser cet échantillonnage latent MCMC. Nous démontrons que trois modèles distincts peuvent être intégrés de manière fluide dans notre cadre conjoint grâce à deux étapes de « enseignement par MCMC dual », permettant ainsi un apprentissage efficace et performant de l’EBM.