HyperAIHyperAI

MultiEdit Multimodaler Bildbearbeitungsdatensatz

Datum

vor 4 Tagen

Organisation

InklusionKI
Die Universität von Hongkong
Die Universität von New South Wales

Veröffentlichungs-URL

huggingface.co

Paper-URL

2509.14638

Lizenz

Apache 2.0

Download-Hilfe

MultiEdit ist ein umfassender, groß angelegter, anweisungsbasierter Datensatz zur Bildbearbeitung, der 2025 von inclusionAI in Zusammenarbeit mit der University of New South Wales und der University of Hong Kong veröffentlicht wurde.MultiEdit: Anweisungsbasierte Bildbearbeitung für vielfältige und anspruchsvolle Aufgaben vorantreiben“, das darauf abzielt, die Fähigkeiten des Modells bei komplexen und vielfältigen Bildbearbeitungsaufgaben zu verbessern.

Dieser Datensatz enthält rund 107.000 Beispiele und deckt sechs Hauptbearbeitungsaufgaben und 56 Unterkategorien von Bearbeitungstypen ab, darunter Objektreferenzbearbeitung, Personenreferenzbearbeitung, Text- und Schnittstellenelementanpassung, Perspektivtransformation und Stilübertragung. Die Daten stammen aus einem Generierungsprozess, der von großen multimodalen Modellen (wie GPT-4o und GPT-Image-1) gesteuert wird. Dieser Ansatz kombiniert Anweisungskonstruktion, Bildgenerierung und Qualitätsprüfung, um die Relevanz und Konsistenz der Bearbeitungsbeispiele sicherzustellen. Die Datenstruktur besteht aus einem Triplett aus „Quellbild – Bearbeitungsanweisung – Bearbeitungsergebnis“ sowie Informationen zu Bearbeitungskategorie und Quelle.

Datenzusammensetzung

  • Objektreferenzbearbeitung
    • Wird verwendet, um die Eigenschaften bestimmter Objekte zu ändern, einschließlich Farbe, Form, Maßstab und Position.
    • Es enthält 4 Bearbeitungstypen und insgesamt 10.051 Beispiele (9.851 im Trainingssatz und 200 im Testsatz).
  • Bearbeitung von Personenreferenzen
    • Bearbeiten Sie die Personen im Bild, einschließlich Haltung, Kleidung, Frisur, Hautfarbe und Körperform.
    • Es enthält 5 Arten von Bearbeitungen mit insgesamt 7.141 Beispielen (6.891 im Trainingssatz und 250 im Testsatz).
  • Textbearbeitung
    • Ändern Sie Textelemente in Bildern, z. B. Schriftart, Textinhalt, Anzeigemedium und Farbe.
    • Es enthält 4 Arten von Bearbeitungen mit insgesamt 4.060 Beispielen (3.860 im Trainingssatz und 200 im Testsatz).
  • GUI-Bearbeitung
    • Wird zum Bearbeiten der Symboleigenschaften und Anzeigemedien von Elementen der grafischen Benutzeroberfläche (GUI) verwendet, die iOS-, Android- und Webschnittstellen abdecken.
    • Es enthält zwei Arten von Bearbeitungen mit insgesamt 2.880 Beispielen (2.780 im Trainingssatz und 100 im Testsatz).
  • Ansichtsbearbeitung
    • Generieren Sie verschiedene Perspektiven von Bildmotiven, einschließlich Personen, Sehenswürdigkeiten und allgemeinen Objekten.
    • Es enthält 3 Arten von Bearbeitungen mit insgesamt 28.205 Beispielen (28.055 im Trainingssatz und 150 im Testsatz).
  • Stilübertragung
    • Konvertieren Sie Bilder in 38 Kunststile, von klassischen Kunstformen bis hin zu moderner digitaler Ästhetik.
    • Es enthält 38 Bearbeitungstypen und insgesamt 56.297 Beispiele (55.097 im Trainingssatz und 200 im Testsatz).