vor 17 Tagen

GALIP: Generative Adversarial CLIPs für Text-zu-Bild-Synthese

Ming Tao, Bing-Kun Bao, Hao Tang, Changsheng Xu

Abstract

Die Synthese hochfidelitätsreicher, komplexer Bilder aus Text ist herausfordernd. Auf Basis umfangreicher Vortrainings können autoregressive und Diffusionsmodelle foto-realistische Bilder generieren. Obwohl diese großen Modelle beachtliche Fortschritte erzielt haben, bestehen nach wie vor drei Hauptprobleme: 1) Diese Modelle erfordern enorme Mengen an Trainingsdaten und Parameter, um gute Leistung zu erzielen. 2) Das mehrstufige Generierungsdesign verlangsamt den Bildsyntheseprozess erheblich. 3) Die generierten visuellen Merkmale sind schwer zu kontrollieren und erfordern sorgfältig gestaltete Prompts. Um eine hochwertige, effiziente, schnelle und kontrollierbare Text-zu-Bild-Synthese zu ermöglichen, schlagen wir Generative Adversarial CLIPs, kurz GALIP, vor. GALIP nutzt das leistungsstarke vortrainierte CLIP-Modell sowohl im Diskriminator als auch im Generator. Speziell stellen wir einen CLIP-basierten Diskriminator vor, dessen Fähigkeit zur Verarbeitung komplexer Szenen die präzise Beurteilung der Bildqualität ermöglicht. Darüber hinaus entwickeln wir einen CLIP-empowerten Generator, der visuelle Konzepte über sogenannte Brückenmerkmale und Prompts aus CLIP ableitet. Die Integration von CLIP in Generator und Diskriminator steigert die Trainingseffizienz erheblich, sodass unser Modell lediglich etwa 3 % der Trainingsdaten und 6 % der lernbaren Parameter benötigt, um Ergebnisse zu erzielen, die mit großen vortrainierten autoregressiven und Diffusionsmodellen vergleichbar sind. Zudem erreicht unser Modell eine Synthesegeschwindigkeit, die 120-mal schneller ist, und bewahrt gleichzeitig den glatten Latentraum von GANs. Umfangreiche experimentelle Ergebnisse belegen die herausragende Leistung unseres GALIP. Der Quellcode ist unter https://github.com/tobran/GALIP verfügbar.