HyperAIHyperAI

Command Palette

Search for a command to run...

vor 14 Tagen

Erzeugen eines Bildes aus 1.000 Wörtern: Verbesserung von Text-zu-Bild mit strukturierten Captions

Erzeugen eines Bildes aus 1.000 Wörtern: Verbesserung von Text-zu-Bild mit strukturierten Captions

Abstract

Text-to-Image-Modelle sind innerhalb kürzester Zeit von informellen kreativen Werkzeugen zu professionellen Systemen mit hoher Qualität geworden und haben bisher unerreichte Level an Bildqualität und Realismus erreicht. Dennoch werden die meisten Modelle so trainiert, dass kurze Texteingaben in detaillierte Bilder umgesetzt werden, wodurch eine Diskrepanz zwischen spärlicher textueller Eingabe und reichhaltigem visuellem Output entsteht. Diese Diskrepanz verringert die Steuerbarkeit, da die Modelle fehlende Details oft willkürlich ergänzen und dabei tendenziell durchschnittliche Benutzerpräferenzen reflektieren, was die Präzision für professionelle Anwendungen einschränkt. Um diese Einschränkung zu überwinden, trainieren wir erstmals ein quelloffenes Text-zu-Bild-Modell an langen, strukturierten Captions, wobei jeder Trainingsbeispiel mit derselben Menge feinabgestimmter Attribute annotiert ist. Diese Architektur maximiert die Ausdruckskapazität und ermöglicht eine entkoppelte Steuerung visueller Faktoren. Um lange Captions effizient verarbeiten zu können, schlagen wir DimFusion vor, eine Fusionsmechanik, die intermediäre Tokens aus einem leichten LLM integriert, ohne die Tokenlänge zu erhöhen. Zudem führen wir das Evaluation-Protokoll Text-as-a-Bottleneck Reconstruction (TaBR) ein. Durch die Beurteilung, wie gut reale Bilder über einen Schleifenprozess aus Captioning und Generierung rekonstruiert werden können, misst TaBR direkt die Steuerbarkeit und Ausdruckskraft – auch bei sehr langen Captions, für die herkömmliche Evaluationsmethoden versagen. Schließlich demonstrieren wir unsere Beiträge durch die Entwicklung des großskaligen Modells FIBO, das unter den quelloffenen Modellen den derzeit höchsten Grad an Prompt-Ausrichtung erreicht. Die Modellgewichte sind öffentlich verfügbar unter https://huggingface.co/briaai/FIBO

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Erzeugen eines Bildes aus 1.000 Wörtern: Verbesserung von Text-zu-Bild mit strukturierten Captions | Forschungsarbeiten | HyperAI