Verhindern des Posterior-Collapses mit delta-VAEs

Aufgrund des Phänomens der „Posteriorschwund“ (posterior collapse) stellen aktuelle latente Variablen-Generatormodelle eine herausfordernde Designentscheidung dar, die entweder die Kapazität des Decoders verringert oder das Ziel erweitert, sodass nicht nur die Wahrscheinlichkeit der Daten maximiert wird. In dieser Arbeit schlagen wir eine Alternative vor, die die leistungsfähigsten Generatormodelle als Decoder einsetzt und gleichzeitig die variationale untere Schranke optimiert, während sichergestellt wird, dass die latenten Variablen nützliche Informationen beibehalten und kodieren. Unsere vorgeschlagenen $δ$-VAEs erreichen dies, indem sie die variationale Familie für den Posterior einschränken, sodass dieser einen minimalen Abstand zum Prior aufweist. Für sequentielle latente Variablenmodelle ähnelt unser Ansatz dem klassischen Repräsentationslernverfahren der langsamen Merkmalsanalyse (slow feature analysis). Wir demonstrieren die Effektivität unseres Ansatzes anhand von Textmodellen auf LM1B und Bildmodellen: Lernen von Repräsentationen, Verbesserung der Sample-Qualität sowie Erreichen des aktuellen Standarts in Bezug auf Log-Likelihood auf CIFAR-10 und ImageNet $32\times 32$.