HyperAIHyperAI

Command Palette

Search for a command to run...

MIGC: Multi-Instanz-Generierungscontroller für Text-zu-Bild-Synthese

Zhou Dewei ; Li You ; Ma Fan ; Zhang Xiaoting ; Yang Yi

Zusammenfassung

Wir präsentieren eine Aufgabe zur Mehrfachinstanzenerzeugung (Multi-Instance Generation, MIG), bei der gleichzeitig mehrere Instanzen mit diversen Kontrollen in einem Bild generiert werden. Gegeben ist eine Menge vorgegebener Koordinaten und deren entsprechende Beschreibungen. Die Aufgabe besteht darin, sicherzustellen, dass die generierten Instanzen genau an den vorgesehenen Positionen platziert sind und alle Instanzattribute ihren entsprechenden Beschreibungen entsprechen. Dies erweitert den Umfang der aktuellen Forschung zur Einzelinstanzenerzeugung und hebt sie auf eine vielseitigere und praktischere Ebene.Inspuriert von dem Prinzip „Teile und herrsche“ (divide and conquer), führen wir einen innovativen Ansatz ein, den Mehrfachinstanzenerzeugungscontroller (Multi-Instance Generation Controller, MIGC). Zunächst zerlegen wir die MIG-Aufgabe in mehrere Teilaufgaben, wobei jede Teilaufgabe das Schattieren einer einzelnen Instanz umfasst. Um eine genaue Schattierung jeder Instanz zu gewährleisten, stellen wir einen Instanzenverstärkungs-Aufmerksamkeitsmechanismus vor. Schließlich aggregieren wir alle geschatteten Instanzen, um die notwendigen Informationen für die präzise Generierung mehrerer Instanzen in stabiler Diffusion (Stable Diffusion, SD) bereitzustellen.Um die Leistungsfähigkeit von Generierungsmodellen bei der MIG-Aufgabe zu bewerten, stellen wir ein COCO-MIG-Benchmark-Datensatz sowie einen Evaluationspipeline vor. Ausführliche Experimente wurden sowohl auf dem vorgeschlagenen COCO-MIG-Benchmark als auch auf verschiedenen gängigen Benchmarks durchgeführt. Die Evaluationsergebnisse verdeutlichen die außergewöhnlichen Kontrollfähigkeiten unseres Modells hinsichtlich Anzahl, Position, Attribute und Interaktion. Der Quellcode und Demos werden unter https://migcproject.github.io/ veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp