HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von energiebasierten Modellen mittels Dual-MCMC-Unterricht

Jiali Cui Tian Han

Zusammenfassung

Diese Arbeit untersucht das grundlegende Lernproblem des energiebasierten Modells (Energy-Based Model, EBM). Die Schätzung eines EBMs kann mittels Maximum-Likelihood-Schätzung (Maximum Likelihood Estimation, MLE) erfolgen, die typischerweise die Verwendung von Markov-Chain-Monte-Carlo-(MCMC)-Sampling erfordert, beispielsweise die Langevin-Dynamik. Allerdings kann die mit Rauschen initialisierte Langevin-Dynamik in der Praxis herausfordernd sein und schlecht mischen. Dies motiviert die Untersuchung einer gemeinsamen Schätzung von EBM und einem Generator-Modell, wobei das Generator-Modell als komplementäres Modell dient, um das MCMC-Sampling zu umgehen. Solche Methoden können jedoch weniger genau sein als MCMC und zu einer Verzerrung bei der EBM-Schätzung führen. Während das Generator-Modell auch als Initialisierungsmodell für eine verbesserte MCMC-Sampling-Performance dienen kann, ist dessen Lernprozess selbst verzerrt, da es lediglich die Verteilung des EBMs nachbildet und keinen direkten Zugriff auf empirische Trainingsbeispiele hat. Eine solche verzerrte Generator-Schätzung kann das volle Potenzial der EBM-Lernung einschränken. Um dieses Problem zu adressieren, präsentieren wir einen gemeinsamen Lernrahmen, der den Maximum-Likelihood-Lernalgorithmus sowohl für das EBM als auch für das komplementäre Generator-Modell interaktiv integriert. Insbesondere wird das Generator-Modell mittels MLE so geschätzt, dass es sowohl die EBM-Verteilung als auch die empirische Datenverteilung trifft, wodurch es zu einem informativeren Initialisierungsmodell für das MCMC-Sampling des EBMs wird. Die Schätzung des Generators mit beobachteten Beispielen erfordert normalerweise die Inferenz der Generator-Posterior. Um eine genaue und effiziente Inferenz sicherzustellen, verwenden wir MCMC-Posterior-Sampling und führen ein komplementäres Inferenzmodell ein, um die latente MCMC-Integration zu initialisieren. Wir zeigen, dass drei getrennte Modelle durch zwei (dual-) MCMC-Teachings nahtlos in unseren gemeinsamen Rahmen integriert werden können, was eine effektive und effiziente Lernung des EBMs ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von energiebasierten Modellen mittels Dual-MCMC-Unterricht | Paper | HyperAI