Command Palette
Search for a command to run...
Einfacheres Malen als Denken: Können Text-zu-Bild-Modelle die Bühne bereiten, aber nicht das Spiel leiten?
Ouxiang Li Yuan Wang Xinting Hu Huijuan Huang et al

Abstract
Die Text-zu-Bild-(T2I)-Generierung zielt darauf ab, Bilder aus textbasierten Prompten zu synthetisieren, die gemeinsam angeben, was dargestellt werden muss, und implizieren, was abgeleitet werden kann. Dies entspricht zwei zentralen Fähigkeiten: Komposition und Schlussfolgerung. Doch mit den jüngsten Fortschritten in der Schlussfolgerungsfähigkeit von T2I-Modellen über die reine Komposition hinaus zeigen bestehende Benchmarks deutliche Grenzen bei der umfassenden Bewertung dieser Fähigkeiten sowohl innerhalb als auch zwischen ihnen. Gleichzeitig ermöglichen diese Fortschritte es den Modellen, komplexere Prompts zu verarbeiten, während aktuelle Benchmarks weiterhin auf geringe Szenendichte und vereinfachte, ein-zu-eins-Schlussfolgerungen beschränkt sind. Um diese Einschränkungen zu überwinden, stellen wir T2I-CoReBench vor – ein umfassendes und komplexes Benchmark, das sowohl die Kompositions- als auch die Schlussfolgerungsfähigkeiten von T2I-Modellen bewertet. Um die Vollständigkeit sicherzustellen, strukturieren wir die Komposition um Elemente von Szenengraphen (Instanz, Attribut, Relation) und die Schlussfolgerung um das philosophische Rahmenwerk der Inferenz (deduktiv, induktiv und abduktiv), wodurch eine 12-dimensionale Evaluations-Taxonomie entsteht. Zur Erhöhung der Komplexität werden die Prompts aufgrund der inhärenten Komplexität realer Szenarien mit hoher Kompositions-Dichte für die Komposition und mehrstufiger Inferenz für die Schlussfolgerung gestaltet. Zudem werden jedem Prompt Checklisten zugeordnet, die einzelne Ja/Nein-Fragen enthalten, um jedes intendierte Element unabhängig zu bewerten und eine feinabgestimmte und zuverlässige Bewertung zu ermöglichen. Statistisch umfasst unser Benchmark 1.080 anspruchsvolle Prompts und rund 13.500 Checklisten-Fragen. Experimente an 27 aktuellen T2I-Modellen zeigen, dass ihre Kompositions-Fähigkeit in komplexen, hochdichten Szenarien weiterhin begrenzt ist, während die Schlussfolgerungsfähigkeit noch deutlich hinterherhinkt und als kritischer Engpass wirkt: Alle Modelle haben Schwierigkeiten, implizite Elemente aus den Prompts abzuleiten. Unser Projekt-Webseite: this https URL.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.