vor 17 Tagen

Flussanpassung im latente Raum

Quan Dao, Hao Phung, Binh Nguyen, Anh Tran

Abstract

Flow Matching ist ein neuartiges Framework zur Trainierung generativer Modelle, das sich durch beeindruckende empirische Leistung auszeichnet und im Vergleich zu diffusionbasierten Modellen relativ leichter zu trainieren ist. Trotz dieser vorteilhaften Eigenschaften stoßen bisherige Ansätze weiterhin auf Herausforderungen hinsichtlich der hohen Rechenkosten und einer großen Anzahl von Funktionsauswertungen von Standard-Lösern im Pixelfeld. Darüber hinaus, obwohl latente generative Methoden in den letzten Jahren erheblichen Erfolg erzielt haben, bleibt dieser Modelltyp in diesem Bereich bisher untererforscht. In dieser Arbeit schlagen wir vor, Flow Matching in den latenzraumprätrainierter Autoencoder anzuwenden, was eine verbesserte rechnerische Effizienz und Skalierbarkeit für die Synthese von hochauflösenden Bildern ermöglicht. Dadurch wird ein Training mittels Flow Matching auch unter eingeschränkten Rechenressourcen möglich, ohne dabei die Qualität und Flexibilität zu beeinträchtigen. Zudem stellt unsere Arbeit einen wegweisenden Beitrag dar, indem sie verschiedene Bedingungen in Flow Matching für bedingte Generierungsaufgaben integriert – darunter label-bedingte Bildgenerierung, Bildinpainting und semantische-zu-Bild-Generierung. Durch umfangreiche Experimente zeigt unsere Methode ihre Wirksamkeit sowohl quantitativ als auch qualitativ auf verschiedenen Datensätzen wie CelebA-HQ, FFHQ, LSUN Church & Bedroom sowie ImageNet. Zudem leisten wir eine theoretische Kontrolle der Wasserstein-2-Distanz zwischen der rekonstruierten latenzraumbezogenen Flussverteilung und der wahren Datendistribution, wobei wir zeigen, dass diese durch das latenzraumbezogene Flow-Matching-Ziel oberhalb begrenzt ist. Unser Code wird unter https://github.com/VinAIResearch/LFM.git verfügbar sein.