HyperAI
vor 4 Tagen

FreeMorph: Tuning-freies generalisiertes Bildmorphing mit Diffusionsmodell

Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
FreeMorph: Tuning-freies generalisiertes Bildmorphing mit Diffusionsmodell
Abstract

Wir präsentieren FreeMorph, die erste einstellungslose Methode für das Bildmorphing, die Eingaben mit unterschiedlichen Semantiken oder Layouts berücksichtigt. Im Gegensatz zu bestehenden Methoden, die auf der Feinabstimmung vortrainierter Diffusionsmodelle basieren und durch zeitliche Einschränkungen und semantische/Layoutunterschiede begrenzt sind, liefert FreeMorph hochwertiges Bildmorphing ohne pro Instanz erforderliches Training. Trotz ihrer Effizienz und Potenzial stellen einstellungslose Methoden Herausforderungen bei der Erhaltung hoher Qualität dar, aufgrund der nichtlinearen Natur des mehrstufigen Entrauschungsprozesses und von Verzerrungen, die aus dem vortrainierten Diffusionsmodell stammen. In dieser Arbeit führen wir FreeMorph ein, um diese Herausforderungen durch die Integration zweier wesentlicher Innovationen zu bewältigen: 1) Wir schlagen zunächst eine guidance-aware sphärische Interpolationsdesign vor, die explizite Anleitung aus den Eingabebildern durch Modifikation der Selbst-Aufmerksamkeitsmodule (self-attention modules) integriert. Dies behebt Identitätsverluste und gewährleistet gerichtete Übergänge über die gesamte generierte Sequenz. 2) Wir führen zudem einen schrittorientierten Variationsverlauf ein, der Selbst-Aufmerksamkeitsmodule von jedem Eingabebild mischt, um kontrollierte und konsistente Übergänge zu erreichen, die beide Eingaben respektieren. Unsere umfangreichen Evaluierungen zeigen, dass FreeMorph bestehende Methoden übertrifft, bis zu 10- bis 50-mal schneller ist und einen neuen Stand der Technik im Bereich des Bildmorphings etabliert.