UniREditBench: Ein einheitlicher, auf Schlussfolgerung basierender Benchmark für Bildbearbeitung

Abstract
Neuere Fortschritte in multimodalen generativen Modellen haben erhebliche Verbesserungen im Bereich des Bildbearbeitens ermöglicht. Dennoch haben derzeit verfügbare generative Modelle weiterhin Schwierigkeiten bei der Bewältigung vielfältiger und komplexer Bildbearbeitungsaufgaben, die implizites Schließen erfordern, was die Notwendigkeit eines umfassenden Benchmarks zur systematischen Beurteilung ihrer Leistung unter verschiedenen Schlussfolgerungsszenarien unterstreicht. Bestehende Benchmarks konzentrieren sich hauptsächlich auf die Veränderung einzelner Objektmerkmale in realistischen Szenarien, was zwar effektiv ist, jedoch zwei zentrale Herausforderungen mit sich bringt: (1) Sie berücksichtigen im Wesentlichen nicht die Interaktionen mehrerer Objekte sowie spielweltbasierte Szenarien mit menschlich definierten Regeln, die in der Praxis häufig vorkommen; (2) Sie stützen sich ausschließlich auf textuelle Referenzen zur Bewertung der generierten Bilder, was systematische Fehlbeurteilungen, insbesondere in komplexen Schlussfolgerungsszenarien, begünstigen kann. Um dies zu adressieren, präsentieren wir UniREditBench, einen einheitlichen Benchmark zur Beurteilung der Schlussfolgerungsfähigkeit in der Bildbearbeitung. Er umfasst 2.700 sorgfältig zusammengestellte Beispiele, die sowohl reale als auch spielweltbasierte Szenarien abdecken und sich über acht Hauptdimensionen und 18 Unterdimensionen erstrecken. Zur Verbesserung der Bewertungsreliabilität führen wir eine multimodale, dual-referenzierte Bewertungsmethode ein, die für jedes Beispiel sowohl textuelle als auch ground-truth-Bildreferenzen bereitstellt. Zudem entwickeln wir eine automatisierte, mehrszenarien-orientierte Datensynthesepipeline und erstellen UniREdit-Data-100K, eine großskalige synthetische Datensammlung mit hochwertigen Chain-of-Thought (CoT)-Schlussfolgerungsannotierungen. Auf dieser Datensammlung feinabstimmen wir das Modell Bagel und entwickeln UniREdit-Bagel, das signifikante Leistungssteigerungen sowohl in in-distribution- als auch in out-of-distribution-Szenarien zeigt. Durch eine umfassende Benchmarking-Analyse sowohl offener als auch geschlossener Bildbearbeitungsmodelle offenbaren wir deren Stärken und Schwächen in verschiedenen Aspekten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.