HyperAIHyperAI
vor 4 Tagen

trainingsfreie, textgesteuerte Farbeditierung mit mehrmodalem Diffusions-Transformer

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Heung-Yeung Shum
trainingsfreie, textgesteuerte Farbeditierung mit mehrmodalem Diffusions-Transformer
Abstract

Farbgesteuerte Bearbeitung von Bildern und Videos mittels Text ist ein grundlegendes, bisher jedoch ungelöstes Problem, das eine feinkörnige Manipulation von Farbeigenschaften – einschließlich Albedo, Lichtquellenfarbe und Umgebungsbeleuchtung – erfordert, während gleichzeitig physikalische Konsistenz in Geometrie, Materialien und Licht-Materie-Wechselwirkungen gewahrt bleibt. Bestehende trainingsfreie Ansätze zeichnen sich durch eine breite Anwendbarkeit über verschiedene Bearbeitungsaufgaben hinweg aus, stoßen jedoch bei der präzisen Farbsteuerung an Grenzen und führen oft zu visueller Inkonsistenz sowohl in bearbeiteten als auch in unveränderten Bereichen. In dieser Arbeit stellen wir ColorCtrl vor, eine trainingsfreie Methode zur Farbänderung, die die Aufmerksamkeitsmechanismen moderner Multimodaler Diffusions-Transformers (MM-DiT) nutzt. Durch die gezielte Manipulation von Aufmerksamkeitskarten und Wert-Tokens gelingt es uns, Struktur und Farbe zu entkoppeln und somit präzise sowie konsistente Farbänderungen zu ermöglichen, wobei eine steuerbare Intensität der Attribute auf Wortebene möglich ist. Unser Ansatz verändert ausschließlich die durch den Prompt spezifizierten Regionen und belässt unabhängige Bereiche unangetastet. Umfangreiche Experimente an SD3 und FLUX.1-dev zeigen, dass ColorCtrl bestehende trainingsfreie Ansätze übertrifft und sowohl in Bezug auf Bearbeitungsqualität als auch auf Konsistenz Zustand der Technik erreicht. Zudem übertrifft unsere Methode starke kommerzielle Modelle wie FLUX.1 Kontext Max und GPT-4o Image Generation hinsichtlich der Konsistenz. Bei Erweiterung auf Videomodelle wie CogVideoX zeigt unsere Methode besonders deutliche Vorteile, insbesondere in Bezug auf zeitliche Kohärenz und Stabilität der Bearbeitung. Schließlich lässt sich unser Ansatz auch auf anweisungsgetriebene Bearbeitungs-Diffusionsmodelle wie Step1X-Edit und FLUX.1 Kontext dev übertragen, was seine Vielseitigkeit weiter unterstreicht.