Konsistenz-Regularisierung für Variational Auto-Encoder

Variational Auto-Encoder (VAE) sind ein leistungsfähiger Ansatz für das überwachungslose Lernen. Sie ermöglichen eine skalierbare, approximative posteriore Inferenz in Latent-Variable-Modellen mittels Variational Inference (VI). Ein VAE postuliert eine Variationsfamilie, die durch ein tiefes neuronales Netzwerk parametrisiert ist, das als Encoder bezeichnet wird und Daten als Eingabe erhält. Dieser Encoder wird über alle Beobachtungen gemeinsam genutzt, was die Kosten der Inferenz amortisiert. Allerdings weist der Encoder eines VAE die unerwünschte Eigenschaft auf, eine gegebene Beobachtung sowie eine semantisch erhaltende Transformation derselben auf unterschiedliche latente Darstellungen abzubilden. Diese „Inkonsistenz“ des Encoders mindert die Qualität der gelernten Darstellungen, insbesondere für nachgeschaltete Aufgaben, und beeinträchtigt zudem die Generalisierbarkeit negativ. In diesem Paper stellen wir eine Regularisierungsmethode vor, die Konsistenz in VAEs fördert. Der Ansatz besteht darin, die Kullback-Leibler-Divergenz zwischen der variationalen Verteilung bei Bedingung auf die Beobachtung und der variationalen Verteilung bei Bedingung auf eine zufällige, semantisch erhaltende Transformation derselben Beobachtung zu minimieren. Diese Regularisierung ist für beliebige VAEs anwendbar. In unseren Experimenten wenden wir sie auf vier verschiedene VAE-Varianten an mehreren Benchmark-Datensätzen an und stellen fest, dass sie stets die Qualität der gelernten Darstellungen verbessert und zudem eine bessere Generalisierung bewirkt. Insbesondere führt die Anwendung auf den Nouveau Variational Auto-Encoder (NVAE) zu state-of-the-art-Leistungen auf MNIST und CIFAR-10. Wir haben unsere Methode auch auf 3D-Daten angewendet und festgestellt, dass sie Darstellungen von überlegener Qualität erzeugt, wie anhand der Genauigkeit bei einer nachgeschalteten Klassifikationsaufgabe gemessen wird.