HyperAIHyperAI
vor 2 Monaten

IP-Adapter: Textkompatibler Bild-Prompt-Adapter für Text-zu-Bild-Diffusionsmodelle

Ye, Hu ; Zhang, Jun ; Liu, Sibo ; Han, Xiao ; Yang, Wei
IP-Adapter: Textkompatibler Bild-Prompt-Adapter für Text-zu-Bild-Diffusionsmodelle
Abstract

In den letzten Jahren hat sich die starke Leistungsfähigkeit großer Text-zu-Bild-Diffusionsmodelle in der beeindruckenden Generierung hochwertiger Bilder gezeigt. Allerdings ist es sehr schwierig, gewünschte Bilder allein durch Textanweisungen zu erzeugen, da dies oft komplexe Prompt-Engineering-Prozesse erfordert. Eine Alternative zu Textanweisungen sind Bildanweisungen, wie der Spruch besagt: "Ein Bild sagt mehr als tausend Worte". Obwohl existierende Methoden zur direkten Feinabstimmung von vortrainierten Modellen effektiv sind, benötigen sie große Rechenressourcen und sind nicht mit anderen Basismodellen, Textanweisungen und strukturellen Kontrollen kompatibel.In dieser Arbeit stellen wir den IP-Adapter vor, einen effektiven und leichten Adapter, um Bildanweisungsfähigkeiten für vortrainierte Text-zu-Bild-Diffusionsmodelle zu erreichen. Das Kernkonzept unseres IP-Adapters ist ein getrennter Cross-Attention-Mechanismus (decoupled cross-attention mechanism), der die Cross-Attention-Schichten für Textmerkmale und Bildmerkmale trennt. Trotz der Einfachheit unserer Methode kann ein IP-Adapter mit nur 22 Millionen Parametern eine vergleichbare oder sogar bessere Leistung als ein vollständig feinabgestimmtes Bildanweisungsmodell erzielen.Da wir das vortrainierte Diffusionsmodell einfrieren, kann der vorgeschlagene IP-Adapter nicht nur auf andere benutzerdefinierte Modelle verallgemeinert werden, die vom gleichen Basismodell abgeleitet sind, sondern auch auf steuerbare Generierung unter Verwendung bestehender steuerbarer Tools. Dank des Vorteils des getrennten Cross-Attention-Strategie können Bildanweisungen auch gut mit Textanweisungen zusammenarbeiten, um multimodale Bildgenerierung zu erreichen.Die Projektseite ist unter \url{https://ip-adapter.github.io} verfügbar.

IP-Adapter: Textkompatibler Bild-Prompt-Adapter für Text-zu-Bild-Diffusionsmodelle | Neueste Forschungsarbeiten | HyperAI