Efficient-VDVAE: Weniger ist mehr

Hierarchische VAEs sind in den letzten Jahren als zuverlässige Methode zur Maximum-Likelihood-Schätzung hervorgetreten. Allerdings haben Stabilitätsprobleme und hohe rechnerische Anforderungen die Forschung in diesem Bereich beeinträchtigt. Wir präsentieren einfache Modifikationen am Very Deep VAE, die eine Konvergenz bis zu 2,6-mal schneller ermöglichen, Speicherbelastung um bis zu 20-mal reduzieren und die Stabilität während des Trainings verbessern. Trotz dieser Änderungen erreichen unsere Modelle auf allen sieben häufig verwendeten Bilddatensätzen vergleichbare oder sogar bessere Leistungen im Hinblick auf die negative Log-Wahrscheinlichkeit als aktuelle State-of-the-Art-Modelle. Zudem argumentieren wir dagegen, 5-Bit-Benchmarks zur Bewertung der Leistung hierarchischer VAEs zu nutzen, da die 5-Bit-Quantisierung unerwünschte Verzerrungen verursacht. Außerdem zeigen wir empirisch, dass etwa 3 % der Dimensionen des hierarchischen VAEs’ latente Raum ausreichen, um den Großteil der Bilddateninformation zu kodieren, ohne Leistungseinbußen – was die effiziente Nutzung des latenten Raums hierarchischer VAEs in nachgeschalteten Aufgaben eröffnet. Wir stellen unseren Quellcode und die Modelle unter https://github.com/Rayhane-mamah/Efficient-VDVAE bereit.