Lernen eines gemeinsamen latenten Raum-Energiebasierten Modells (EBM) als Prior für einen mehrschichtigen Generator

Diese Arbeit untersucht das grundlegende Problem des Lernens von mehrschichtigen Generatormodellen. Das mehrschichtige Generatormodell baut mehrere Schichten latenter Variablen als Prior-Modell über dem Generator auf, was der Modellierung komplexer Datenverteilungen und hierarchischer Darstellungen zugutekommt. Allerdings konzentriert sich ein solches Prior-Modell typischerweise auf die Modellierung der zwischen-schichtlichen Beziehungen zwischen latenten Variablen unter der Annahme von nicht-informativen (bedingten) Gauss-Verteilungen, was die Ausdruckskraft des Modells einschränken kann. Um dieses Problem anzugehen und ausdrucksstärkere Prior-Modelle zu lernen, schlagen wir ein energiebasiertes Modell (Energy-Based Model, EBM) im gemeinsamen latenten Raum aller Schichten latenter Variablen vor, wobei das mehrschichtige Generatormodell als Grundstruktur dient. Das hierbei vorgeschlagene EBM-Prior-Modell im gemeinsamen latenten Raum erfasst die innerhalb jeder Schicht bestehenden kontextuellen Beziehungen durch schichtweise Energieterme und korrigiert die latenten Variablen über verschiedene Schichten hinweg gemeinsam. Wir entwickeln ein gemeinsames Trainingsverfahren mittels Maximum-Likelihood-Schätzung (MLE), das Markov-Chain-Monte-Carlo-(MCMC-)Sampling sowohl für die Prior- als auch für die Posterior-Verteilungen der latenten Variablen aus unterschiedlichen Schichten erfordert. Um eine effiziente Inferenz und ein effektives Lernen sicherzustellen, schlagen wir zudem ein variationales Trainingsverfahren vor, bei dem ein Inferenzmodell eingesetzt wird, um die kostenintensive MCMC-Posterior-Sampling zu amortisieren. Unsere Experimente zeigen, dass das gelernte Modell hochwertige Bilder generieren und hierarchische Merkmale effektiv erfassen kann, was zu einer verbesserten Erkennung von Ausreißern führt.