HyperAIHyperAI
vor 2 Monaten

DreamBooth: Feinabstimmung von Text-zu-Bild-Diffusionsmodellen für subjektgesteuerte Generierung

Ruiz, Nataniel ; Li, Yuanzhen ; Jampani, Varun ; Pritch, Yael ; Rubinstein, Michael ; Aberman, Kfir
DreamBooth: Feinabstimmung von Text-zu-Bild-Diffusionsmodellen für
  subjektgesteuerte Generierung
Abstract

Große Text-zu-Bild-Modelle haben einen bemerkenswerten Sprung in der Entwicklung der KI bewirkt und ermöglichen es, hochwertige und vielfältige Bilder aus einem gegebenen Textanstoß zu erzeugen. Allerdings fehlt diesen Modellen die Fähigkeit, das Erscheinungsbild von Objekten in einem gegebenen Referenzdatensatz nachzubilden und neue Darstellungen dieser Objekte in verschiedenen Kontexten zu synthetisieren. In dieser Arbeit stellen wir einen neuen Ansatz zur "Personalisierung" von Text-zu-Bild-Diffusionsmodellen vor. Mit nur wenigen Bildern eines Objekts als Eingabe feinjustieren wir ein vortrainiertes Text-zu-Bild-Modell, sodass es lernt, einen eindeutigen Bezeichner mit diesem spezifischen Objekt zu verbinden. Sobald das Objekt im Ausgabebereich des Modells eingebettet ist, kann der eindeutige Bezeichner verwendet werden, um neue fotorealistische Bilder des Objekts in verschiedenen Szenarien zu synthetisieren. Durch die Nutzung des semantischen Vorwissens, das im Modell eingebettet ist, zusammen mit einem neuen autogenen klassenspezifischen Vorwissenerhaltungsverlust (autogenous class-specific prior preservation loss), ermöglicht unsere Technik die Synthese des Objekts in diversen Szenarien, Posevarianten, Ansichten und Beleuchtungsbedingungen, die nicht im Referenzdatensatz enthalten sind. Wir wenden unsere Technik auf mehrere bisher unangreifbare Aufgaben an, darunter die Rekontextualisierung von Objekten, textgeführte Ansichtssynthese und künstlerisches Rendern – dabei werden die wesentlichen Merkmale des Objekts erhalten. Des Weiteren stellen wir einen neuen Datensatz und ein Evaluationsprotokoll für diese neue Aufgabe der objektgetriebenen Generierung bereit. Projektseite: https://dreambooth.github.io/