HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage du modèle énergétique par enseignement Dual-MCMC

Jiali Cui Tian Han

Résumé

Cet article étudie le problème fondamental d’apprentissage des modèles à énergie (Energy-Based Models, EBM). L’apprentissage d’un EBM peut être réalisé via l’estimation du maximum de vraisemblance (Maximum Likelihood Estimation, MLE), qui implique généralement un échantillonnage par chaîne de Markov Monte Carlo (MCMC), comme la dynamique de Langevin. Toutefois, la dynamique de Langevin initialisée aléatoirement peut s’avérer difficile à mettre en œuvre en pratique et peine à mélanger efficacement. Cela motive l’exploration d’une approche d’apprentissage conjoint avec un modèle générateur, ce dernier servant de modèle complémentaire afin de contourner l’échantillonnage MCMC. Toutefois, une telle méthode peut être moins précise que l’approche MCMC et entraîner un apprentissage biaisé de l’EBM. Bien que le modèle générateur puisse également servir d’initialiseur pour améliorer l’échantillonnage MCMC, son apprentissage peut être biaisé, car il ne s’ajuste qu’à l’EBM et n’a pas accès aux exemples empiriques. Ce biais dans l’apprentissage du générateur peut limiter le potentiel d’apprentissage de l’EBM. Pour remédier à ce problème, nous proposons un cadre d’apprentissage conjoint qui intègre de manière itérative l’algorithme d’apprentissage par maximum de vraisemblance pour à la fois l’EBM et le modèle générateur complémentaire. Plus précisément, le modèle générateur est appris par MLE afin de s’ajuster à la fois à l’EBM et à la distribution empirique des données, ce qui en fait un initialiseur plus informatif pour l’échantillonnage MCMC de l’EBM. L’apprentissage du générateur à partir d’exemples observés nécessite généralement l’inférence de la postérieure du générateur. Pour garantir une inférence précise et efficace, nous adoptons un échantillonnage postérieur MCMC et introduisons un modèle d’inférence complémentaire pour initialiser cet échantillonnage latent MCMC. Nous démontrons que trois modèles distincts peuvent être intégrés de manière fluide dans notre cadre conjoint grâce à deux étapes de « enseignement par MCMC dual », permettant ainsi un apprentissage efficace et performant de l’EBM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp