HyperAIHyperAI
vor 2 Monaten

PhotoMaker: Anpassung realistischer menschlicher Fotos durch gestapelte ID-Embedding

Li, Zhen ; Cao, Mingdeng ; Wang, Xintao ; Qi, Zhongang ; Cheng, Ming-Ming ; Shan, Ying
PhotoMaker: Anpassung realistischer menschlicher Fotos durch gestapelte ID-Embedding
Abstract

Neuere Fortschritte bei der Text-zu-Bild-Generierung haben bemerkenswerte Erfolge bei der Synthese realistischer Fotos von Menschen erzielt, die auf gegebenen Textanweisungen basieren. Dennoch können bestehende personalisierte Generierungsverfahren nicht gleichzeitig die Anforderungen hoher Effizienz, vielversprechender Identitäts- (ID-) Treue und flexibler Textsteuerung erfüllen. In dieser Arbeit stellen wir PhotoMaker vor, eine effiziente personalisierte Text-zu-Bild-Generierungsmethode, die hauptsächlich eine beliebige Anzahl von Eingabe-ID-Bildern in eine Stapel-ID-Einbettung kodiert, um ID-Informationen zu bewahren. Eine solche Einbettung dient als einheitliche ID-Darstellung und kann nicht nur die Merkmale der gleichen Eingabe-ID umfassend erfassen, sondern auch die Merkmale verschiedener IDs für nachfolgende Integration aufnehmen. Dies bahnt den Weg für faszinierendere und praktisch wertvolle Anwendungen. Darüber hinaus schlagen wir einen datenkonstruktionsorientierten Pipeline vor, um die Trainingsdaten zusammenzustellen, der das Training unseres PhotoMakers antreibt. Dank des durch den vorgeschlagenen Pipeline konstruierten Datensatzes zeigt unser PhotoMaker eine bessere ID-Bewahrungsfähigkeit als Methoden, die auf Testzeitfeinabstimmung basieren, bietet jedoch erhebliche Geschwindigkeitsverbesserungen, hochwertige Generierungsergebnisse, starke Generalisierungsfähigkeiten und eine breite Anwendungsspektrum. Unsere Projektseite ist unter https://photo-maker.github.io/ verfügbar.

PhotoMaker: Anpassung realistischer menschlicher Fotos durch gestapelte ID-Embedding | Neueste Forschungsarbeiten | HyperAI