Lernen hierarchischer EBM-Diffusionsmodelle im latenten Raum

Diese Arbeit untersucht das Lernproblem des energiebasierten Prior-Modells und des mehrschichtigen Generatormodells. Das mehrschichtige Generatormodell, das mehrere Schichten latenter Variablen in einer hierarchischen, top-down-Struktur enthält, geht typischerweise von einem Gauss-Prior-Modell aus. Solch ein Prior-Modell kann hinsichtlich seiner Ausdruckskraft eingeschränkt sein, was zu einer Diskrepanz zwischen dem Generatord-posterior und dem Prior-Modell führt, bekannt als das „Prior-Hole-Problem“. Neuere Arbeiten haben untersucht, das energiebasierte (EBM) Prior-Modell als zweistufiges, ergänzendes Modell zu lernen, um diese Lücke zu schließen. Allerdings kann ein EBM, der auf einem mehrschichtigen latenten Raum definiert ist, stark multimodal sein, was die Stichprobenziehung aus diesem marginalen EBM-Prior in der Praxis erheblich erschwert und zu einer ineffektiven EBM-Lernleistung führt. Um dieses Problem anzugehen, schlagen wir vor, das Diffusions-wahrscheinliche Schema zu nutzen, um die Belastung der EBM-Stichprobenziehung zu verringern und somit das EBM-Lernen zu erleichtern. Unsere umfangreichen Experimente zeigen eine überlegene Leistung unseres durch Diffusion gelernten EBM-Prior auf verschiedenen anspruchsvollen Aufgaben.