MultiEdit: Fortschritte bei der anweisungsbezogenen Bildbearbeitung bei vielfältigen und anspruchsvollen Aufgaben

Aktuelle methodenbasierte Bildbearbeitung (Instruction-Based Image Editing, IBIE) stoßen bei anspruchsvollen Bearbeitungsaufgaben auf Schwierigkeiten, da sowohl die Vielfalt der Bearbeitungstypen als auch die Anzahl der Beispiele in bestehenden Datensätzen begrenzt sind. Zudem enthalten traditionelle Datensatzkonstruktionen oft fehlerhafte Bild-Text-Paare, die Verzerrungen einführen und die Leistungsfähigkeit von Modellen in komplexen Bearbeitungsszenarien einschränken können. Um diese Einschränkungen zu überwinden, stellen wir MultiEdit vor – einen umfassenden Datensatz mit über 107.000 hochwertigen Bildbearbeitungsbeispielen. Er umfasst sechs anspruchsvolle Bearbeitungsaufgaben und kombiniert eine vielfältige Auswahl aus 18 nicht-stilbasierten Bearbeitungstypen und 38 Stilübertragungsoperationen, die von anspruchsvollen Stilübertragungen bis hin zu komplexen semantischen Operationen wie Personenreferenz-Bearbeitung und Textbearbeitung innerhalb des Bildes reichen. Wir verwenden einen neuartigen Datensatzkonstruktionspipeline, der zwei multimodale große Sprachmodelle (Multimodal Large Language Models, MLLMs) einsetzt, um visuell adaptierte Bearbeitungsanweisungen zu generieren und gleichzeitig hochauflösende bearbeitete Bilder zu erzeugen. Ausführliche Experimente zeigen, dass das Feintuning von grundlegenden Open-Source-Modellen mit unserem MultiEdit-Train-Datensatz die Leistungsfähigkeit dieser Modelle bei anspruchsvollen Bearbeitungsaufgaben im vorgeschlagenen MultiEdit-Test-Benchmark erheblich verbessert, während gleichzeitig ihre Fähigkeiten im Standard-Benchmark bewahrt bleiben. Wir sind überzeugt, dass MultiEdit eine wertvolle Ressource für die Weiterentwicklung der Forschung zu vielfältigeren und anspruchsvolleren IBIE-Fähigkeiten darstellt. Unser Datensatz ist unter folgender URL verfügbar: https://…