HyperAIHyperAI
vor 2 Monaten

MIGC: Multi-Instanz-Generierungscontroller für Text-zu-Bild-Synthese

Zhou, Dewei ; Li, You ; Ma, Fan ; Zhang, Xiaoting ; Yang, Yi
MIGC: Multi-Instanz-Generierungscontroller für Text-zu-Bild-Synthese
Abstract

Wir präsentieren eine Aufgabe zur Mehrfachinstanzenerzeugung (Multi-Instance Generation, MIG), bei der gleichzeitig mehrere Instanzen mit diversen Kontrollen in einem Bild generiert werden. Gegeben ist eine Menge vorgegebener Koordinaten und deren entsprechende Beschreibungen. Die Aufgabe besteht darin, sicherzustellen, dass die generierten Instanzen genau an den vorgesehenen Positionen platziert sind und alle Instanzattribute ihren entsprechenden Beschreibungen entsprechen. Dies erweitert den Umfang der aktuellen Forschung zur Einzelinstanzenerzeugung und hebt sie auf eine vielseitigere und praktischere Ebene.Inspuriert von dem Prinzip „Teile und herrsche“ (divide and conquer), führen wir einen innovativen Ansatz ein, den Mehrfachinstanzenerzeugungscontroller (Multi-Instance Generation Controller, MIGC). Zunächst zerlegen wir die MIG-Aufgabe in mehrere Teilaufgaben, wobei jede Teilaufgabe das Schattieren einer einzelnen Instanz umfasst. Um eine genaue Schattierung jeder Instanz zu gewährleisten, stellen wir einen Instanzenverstärkungs-Aufmerksamkeitsmechanismus vor. Schließlich aggregieren wir alle geschatteten Instanzen, um die notwendigen Informationen für die präzise Generierung mehrerer Instanzen in stabiler Diffusion (Stable Diffusion, SD) bereitzustellen.Um die Leistungsfähigkeit von Generierungsmodellen bei der MIG-Aufgabe zu bewerten, stellen wir ein COCO-MIG-Benchmark-Datensatz sowie einen Evaluationspipeline vor. Ausführliche Experimente wurden sowohl auf dem vorgeschlagenen COCO-MIG-Benchmark als auch auf verschiedenen gängigen Benchmarks durchgeführt. Die Evaluationsergebnisse verdeutlichen die außergewöhnlichen Kontrollfähigkeiten unseres Modells hinsichtlich Anzahl, Position, Attribute und Interaktion. Der Quellcode und Demos werden unter https://migcproject.github.io/ veröffentlicht.