BLIP-Diffusion: Vorabtrainierte Subjektrepräsentation für steuerbare Text-zu-Bild-Generierung und -Bearbeitung

Subjektgesteuerte Text-zu-Bild-Generierungsmodelle erstellen neue Darstellungen eines Eingabesubjekts auf der Grundlage von Textanweisungen. Bestehende Modelle leiden unter langwierigem Feinjustierung und Schwierigkeiten bei der Erhaltung der Subjekt-Treue. Um diese Einschränkungen zu überwinden, stellen wir BLIP-Diffusion vor, ein neues subjektgesteuertes Bildgenerierungsmodell, das multimodale Steuerung unterstützt und sowohl Subjektbilder als auch Textanweisungen als Eingaben verarbeitet. Im Gegensatz zu anderen subjektgesteuerten Generierungsmodellen führt BLIP-Diffusion einen neuen multimodalen Encoder ein, der vortrainiert ist, um eine Subjektdarstellung bereitzustellen. Wir trainieren zunächst den multimodalen Encoder im Sinne von BLIP-2, um eine visuelle Darstellung zu erzeugen, die mit dem Text übereinstimmt. Anschließend entwickeln wir eine Aufgabe zum Lernen der Subjektdarstellung, die es einem Diffusionsmodell ermöglicht, solche visuellen Darstellungen zu nutzen und neue Subjektdarstellungen zu generieren. Im Vergleich zu früheren Methoden wie DreamBooth ermöglicht unser Modell zero-shot subjektgesteuerte Generierung sowie effiziente Feinjustierung für personalisierte Subjekte mit bis zu 20-facher Geschwindigkeitserhöhung. Wir zeigen außerdem, dass BLIP-Diffusion flexibel mit bestehenden Techniken wie ControlNet und prompt-to-prompt kombiniert werden kann, um innovative Anwendungen zur subjektgesteuerten Generierung und Bearbeitung zu ermöglichen. Der Quellcode und die Modelle werden unter https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion veröffentlicht. Die Projektseite finden Sie unter https://dxli94.github.io/BLIP-Diffusion-website/.