HyperAIHyperAI
vor 17 Tagen

Lernen von energiebasierten Modellen mittels Dual-MCMC-Unterricht

Jiali Cui, Tian Han
Lernen von energiebasierten Modellen mittels Dual-MCMC-Unterricht
Abstract

Diese Arbeit untersucht das grundlegende Lernproblem des energiebasierten Modells (Energy-Based Model, EBM). Die Schätzung eines EBMs kann mittels Maximum-Likelihood-Schätzung (Maximum Likelihood Estimation, MLE) erfolgen, die typischerweise die Verwendung von Markov-Chain-Monte-Carlo-(MCMC)-Sampling erfordert, beispielsweise die Langevin-Dynamik. Allerdings kann die mit Rauschen initialisierte Langevin-Dynamik in der Praxis herausfordernd sein und schlecht mischen. Dies motiviert die Untersuchung einer gemeinsamen Schätzung von EBM und einem Generator-Modell, wobei das Generator-Modell als komplementäres Modell dient, um das MCMC-Sampling zu umgehen. Solche Methoden können jedoch weniger genau sein als MCMC und zu einer Verzerrung bei der EBM-Schätzung führen. Während das Generator-Modell auch als Initialisierungsmodell für eine verbesserte MCMC-Sampling-Performance dienen kann, ist dessen Lernprozess selbst verzerrt, da es lediglich die Verteilung des EBMs nachbildet und keinen direkten Zugriff auf empirische Trainingsbeispiele hat. Eine solche verzerrte Generator-Schätzung kann das volle Potenzial der EBM-Lernung einschränken. Um dieses Problem zu adressieren, präsentieren wir einen gemeinsamen Lernrahmen, der den Maximum-Likelihood-Lernalgorithmus sowohl für das EBM als auch für das komplementäre Generator-Modell interaktiv integriert. Insbesondere wird das Generator-Modell mittels MLE so geschätzt, dass es sowohl die EBM-Verteilung als auch die empirische Datenverteilung trifft, wodurch es zu einem informativeren Initialisierungsmodell für das MCMC-Sampling des EBMs wird. Die Schätzung des Generators mit beobachteten Beispielen erfordert normalerweise die Inferenz der Generator-Posterior. Um eine genaue und effiziente Inferenz sicherzustellen, verwenden wir MCMC-Posterior-Sampling und führen ein komplementäres Inferenzmodell ein, um die latente MCMC-Integration zu initialisieren. Wir zeigen, dass drei getrennte Modelle durch zwei (dual-) MCMC-Teachings nahtlos in unseren gemeinsamen Rahmen integriert werden können, was eine effektive und effiziente Lernung des EBMs ermöglicht.