Semi-Amortisierte Variationale Autoencoder

Die amortisierte variationale Inferenz (AVI) ersetzt instanzspezifische lokale Inferenz durch ein globales Inferenznetzwerk. Obwohl AVI die effiziente Schulung tiefer generativer Modelle wie variationeller Autoencoder (VAE) ermöglicht hat, deuten jüngste empirische Arbeiten darauf hin, dass Inferenznetzwerke suboptimale variationale Parameter erzeugen können. Wir schlagen einen hybriden Ansatz vor, bei dem AVI verwendet wird, um die variationalen Parameter zu initialisieren, und stochastische variationale Inferenz (SVI) eingesetzt wird, um diese zu verfeinern. Entscheidend ist dabei, dass der lokale SVI-Prozess selbst differenzierbar ist, sodass das Inferenznetzwerk und das generative Modell mit gradientenbasierter Optimierung end-to-end geschult werden können. Dieser halb-amortisierte Ansatz ermöglicht es, reichhaltige generative Modelle zu verwenden, ohne das Problem der Posterior-Kollaps zu erleben, das bei der Schulung von VAEs für Aufgaben wie Textgenerierung häufig auftritt. Experimente zeigen, dass dieser Ansatz starke autoregressive und variationale Baseline-Modelle auf standardisierten Text- und Bild-Datensätzen übertrifft.