HyperAIHyperAI

Command Palette

Search for a command to run...

BLIP-Diffusion: Vorabtrainierte Subjektrepräsentation für steuerbare Text-zu-Bild-Generierung und -Bearbeitung

Dongxu Li Junnan Li Steven C.H. Hoi

Zusammenfassung

Subjektgesteuerte Text-zu-Bild-Generierungsmodelle erstellen neue Darstellungen eines Eingabesubjekts auf der Grundlage von Textanweisungen. Bestehende Modelle leiden unter langwierigem Feinjustierung und Schwierigkeiten bei der Erhaltung der Subjekt-Treue. Um diese Einschränkungen zu überwinden, stellen wir BLIP-Diffusion vor, ein neues subjektgesteuertes Bildgenerierungsmodell, das multimodale Steuerung unterstützt und sowohl Subjektbilder als auch Textanweisungen als Eingaben verarbeitet. Im Gegensatz zu anderen subjektgesteuerten Generierungsmodellen führt BLIP-Diffusion einen neuen multimodalen Encoder ein, der vortrainiert ist, um eine Subjektdarstellung bereitzustellen. Wir trainieren zunächst den multimodalen Encoder im Sinne von BLIP-2, um eine visuelle Darstellung zu erzeugen, die mit dem Text übereinstimmt. Anschließend entwickeln wir eine Aufgabe zum Lernen der Subjektdarstellung, die es einem Diffusionsmodell ermöglicht, solche visuellen Darstellungen zu nutzen und neue Subjektdarstellungen zu generieren. Im Vergleich zu früheren Methoden wie DreamBooth ermöglicht unser Modell zero-shot subjektgesteuerte Generierung sowie effiziente Feinjustierung für personalisierte Subjekte mit bis zu 20-facher Geschwindigkeitserhöhung. Wir zeigen außerdem, dass BLIP-Diffusion flexibel mit bestehenden Techniken wie ControlNet und prompt-to-prompt kombiniert werden kann, um innovative Anwendungen zur subjektgesteuerten Generierung und Bearbeitung zu ermöglichen. Der Quellcode und die Modelle werden unter https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion veröffentlicht. Die Projektseite finden Sie unter https://dxli94.github.io/BLIP-Diffusion-website/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp