Normalizing Flows sind fähige generative Modelle

Normalizing Flows (NFs) sind wahrscheinlichkeitsbasierte Modelle für kontinuierliche Eingaben. Sie haben vielversprechende Ergebnisse sowohl bei Dichteabschätzungen als auch bei generativen Modellierungsaufgaben erzielt, erhielten aber in den letzten Jahren relativ wenig Aufmerksamkeit. In dieser Arbeit zeigen wir, dass NFs mächtiger sind, als bisher angenommen. Wir stellen TarFlow vor: eine einfache und skalierbare Architektur, die leistungsstarke NF-Modelle ermöglicht. TarFlow kann als eine Transformer-basierte Variante von Masked Autoregressive Flows (MAFs) betrachtet werden: Es besteht aus einem Stapel autoregressiver Transformer-Blöcke auf Bildausschnitten, wobei die autoregressive Richtung zwischen den Schichten abwechselt. TarFlow lässt sich einfach end-to-end trainieren und ist in der Lage, Pixel direkt zu modellieren und zu generieren. Darüber hinaus schlagen wir drei wesentliche Techniken vor, um die Sample-Qualität zu verbessern: Gaußsche Rauschaugmentierung während des Trainings, ein Nachbearbeitungsverfahren zur Entrauschung nach dem Training und eine effektive Leitmethode für sowohl klassenbedingte als auch unbedingte Szenarien. Zusammen erzielt TarFlow neue Stand-of-the-Art-Ergebnisse bei der Likelihood-Abschätzung für Bilder und übertrifft die bisher besten Methoden deutlich. Zudem generiert es Samples mit einer Qualität und Vielfalt, die vergleichbar mit Diffusionsmodellen sind – zum ersten Mal mit einem eigenständigen NF-Modell. Unser Code ist unter https://github.com/apple/ml-tarflow verfügbar.