Command Palette
Search for a command to run...
MOSAIC: Multi-Subject Personalisierte Generierung durch korrespondenzbewusste Ausrichtung und Entkoppelung
Dong She Siming Fu Mushui Liu Qiaoqiao Jin Hualiang Wang Mu Liu Jidong Jiang

Abstract
Die personalisierte Generierung mehrerer Subjekte stellt einzigartige Herausforderungen dar, insbesondere hinsichtlich der Aufrechterhaltung der Identitätsintegrität und semantischen Kohärenz bei der Synthese von Bildern, die auf mehreren Referenzsubjekten basieren. Bestehende Ansätze leiden häufig unter einer Vermischung von Identitäten und Informationslecks bezüglich Merkmale, da die Interaktion verschiedener Subjekte innerhalb gemeinsamer Repräsentationsräume unzureichend modelliert wird. Wir präsentieren MOSAIC, einen auf Repräsentationen ausgerichteten Rahmen, der die Generierung mehrerer Subjekte neu konzipiert durch explizite semantische Korrespondenz und orthogonale Merkmalsentkoppelung. Unser zentrales Konzept besteht darin, dass die Generierung mehrerer Subjekte eine präzise semantische Ausrichtung auf der Repräsentationsebene erfordert – genau zu wissen, welche Bereiche im generierten Bild auf welche Teile jedes Referenzsubjekts fokussieren sollen. Um dies zu ermöglichen, führen wir SemAlign-MS ein, eine sorgfältig annotierte Datensammlung, die feinabgestimmte semantische Korrespondenzen zwischen mehreren Referenzsubjekten und Zielfiguren bereitstellt, die in diesem Bereich bisher nicht verfügbar waren. Auf dieser Grundlage schlagen wir eine semantische Korrespondenz-Attention-Verlustfunktion vor, die eine präzise punktgenaue semantische Ausrichtung erzwingt und so eine hohe Konsistenz zwischen jedem Referenzsubjekt und seinen zugeordneten Regionen gewährleistet. Darüber hinaus entwickeln wir eine Verlustfunktion zur Entkoppelung mehrerer Referenzen, die die verschiedenen Subjekte in orthogonale Aufmerksamkeits-Unterraum projiziert, um Merkmalsinterferenzen zu verhindern, während gleichzeitig die individuellen Identitätsmerkmale erhalten bleiben. Umfangreiche Experimente zeigen, dass MOSAIC eine state-of-the-art-Leistung auf mehreren Benchmarks erzielt. Insbesondere bleibt MOSAIC auch bei vier oder mehr Referenzsubjekten hochfidel, während bestehende Methoden typischerweise ab drei Subjekten an Leistung verlieren – dies eröffnet neue Möglichkeiten für komplexe Anwendungen der mehrsubjektiven Synthese.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.