Heutzutage wird die themenorientierte Generierung im Bereich der Bildgenerierung häufig eingesetzt, sie ist jedoch immer noch mit zahlreichen Herausforderungen hinsichtlich der Daten- und Themenskalierbarkeit verbunden. Besonders schwierig ist es beispielsweise, von einem Einzelsubjekt-Datensatz auf einen Mehrsubjekt-Datensatz umzusteigen und diesen zu erweitern. Die derzeit angesagte Forschungsrichtung ist die Einzelsubjektforschung, die bei Aufgaben zur Generierung mehrerer Subjekte schlechte Ergebnisse liefert.

In Anbetracht dessenDas Intelligent Creation-Team von ByteDance, einem chinesischen Internettechnologieunternehmen, nutzte die Kontextgenerierungsfunktion des Diffusion-Transformer-Modells, um hochkonsistente gepaarte Daten mehrerer Agenten zu generieren, und schlug das auf FLUX basierende UNO-Modell vor, das unterschiedliche Eingabebedingungen bei Bildgenerierungsaufgaben verarbeiten kann.Es verwendet das neue Paradigma der „Modell-Daten-Koevolution“, um Trainingsdaten anzureichern und die Qualität und Vielfalt der generierten Bilder zu verbessern und gleichzeitig die Modellleistung zu optimieren. Die Forscher führten umfangreiche Experimente mit DreamBench und Multi-Agent-gesteuerten Generierungs-Benchmarks durch. UNO erreichte in beiden Aufgaben die höchsten DINO- und CLIP-I-Wertungen und demonstrierte damit seine hervorragende Leistung hinsichtlich Themenähnlichkeit und Textkontrollierbarkeit und erreichte das SOTA-Niveau.

Ergebnisse der Evaluierung der Generation mit mehreren Agenten, UNO erreicht SOTA

Derzeit wurde das Tutorial „UNO: Universal Customized Image Generation“ im Tutorial-Bereich der offiziellen Website von HyperAI veröffentlicht.Klicken Sie auf den Link unten, um es schnell zu erleben ↓

Link zum Tutorial:https://go.hyper.ai/XELg5

Demolauf

1. Melden Sie sich bei hyper.ai an, wählen Sie auf der Seite „Tutorials“ UNO: Universal Customized Image Generation aus und klicken Sie auf „Dieses Tutorial online ausführen“.

2. Klicken Sie nach dem Seitensprung oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

3. Wählen Sie die Bilder „NVIDIA GeForce RTX 4090“ und „PyTorch“ aus. Die OpenBayes-Plattform bietet vier Abrechnungsmethoden. Sie können je nach Bedarf zwischen „Pay as you go“ oder „Täglich/Wöchentlich/Monatlich“ wählen. Klicken Sie auf „Weiter“. Neue Benutzer können sich über den unten stehenden Einladungslink registrieren, um 4 Stunden RTX 4090 + 5 Stunden CPU-freie Zeit zu erhalten!

Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. Warten Sie, bis die Ressourcen zugewiesen wurden. Der erste Klonvorgang dauert etwa 2 Minuten. Wenn sich der Status in „Läuft“ ändert, klicken Sie auf den Sprungpfeil neben „API-Adresse“, um zur Demoseite zu springen. Bitte beachten Sie, dass Benutzer vor der Verwendung der API-Adresszugriffsfunktion eine Echtnamenauthentifizierung durchführen müssen.

Effektdemonstration

Geben Sie in „Eingabeaufforderung“ einen Text ein, der das generierte Bild beschreibt, und laden Sie dann den Bildinhalt des generierten Bildes in „Ref Img“ hoch. Passen Sie „Generation Width/Height“ an, um die Länge/Breite des generierten Bildes auszuwählen, und klicken Sie abschließend auf „Generate“.

Einführung zur Parametereinstellung:

Anzahl der Schritte: Stellt die Anzahl der Iterationen des Modells oder die Anzahl der Schritte im Inferenzprozess dar und stellt die Anzahl der Optimierungsschritte dar, die das Modell zum Generieren des Ergebnisses verwendet. Eine höhere Anzahl von Schritten führt im Allgemeinen zu genaueren Ergebnissen, kann aber die Rechenzeit verlängern.
Anleitung: Es wird verwendet, um zu steuern, inwieweit bedingte Eingaben (wie Text oder Bilder) in generativen Modellen die generierten Ergebnisse beeinflussen. Höhere Richtwerte führen dazu, dass die generierten Ergebnisse besser mit den Eingabebedingungen übereinstimmen, während niedrigere Werte mehr Zufälligkeit beibehalten.
Samen: Ist der Startwert der Zufallszahl, der zur Steuerung der Zufälligkeit des Generierungsprozesses verwendet wird. Derselbe Seed-Wert kann dieselben Ergebnisse erzeugen (vorausgesetzt, dass die anderen Parameter gleich sind), was für die Reproduktion von Ergebnissen sehr wichtig ist.

Hier haben wir ein Logo und ein Bild einer Tasse hochgeladen und die Textbeschreibung lautet: Das Logo ist auf die Tasse gedruckt. Sie können sehen, dass das Modell das Bild sehr genau für uns verarbeitet hat.

Die Multi-Agent-gesteuerte Generierungsfähigkeit Erreicht SOTA, Und Das Byte UNO-Modell Kann Eine Vielzahl Von Bildgenerierungsaufgaben Bewältigen

Demolauf

Effektdemonstration