NoHumansRequired: Autonome Hochwertige Bildbearbeitung Dreiergruppen-Extraktion

Neue Fortschritte in der generativen Modellierung ermöglichen Bildbearbeitungshilfen, die natürliche Sprachanweisungen ohne zusätzliche Benutzerinput ausführen. Ihre überwachte Trainingsphase erfordert Millionen von Triplets: ursprüngliches Bild, Anweisung, bearbeitetes Bild. Dennoch ist die Suche nach pixelgenauen Beispielen schwierig. Jede Bearbeitung muss sich ausschließlich auf die im Prompt spezifizierten Bereiche beschränken, die stilistische Kohärenz bewahren, physische Plausibilität respektieren und visuelle Ästhetik erhalten. Die fehlende Robustheit automatischer Bewertungsmetriken für die Bearbeitungsqualität erschwert eine zuverlässige Automatisierung in großem Maßstab. Wir präsentieren einen automatisierten, modularen Prozess, der hochfidele Triplets über Domänen, Auflösungen, Anweisungskomplexitäten und Stile hinweg sammelt. Der Prozess basiert auf öffentlichen generativen Modellen und läuft ohne menschliche Intervention. Unser System verwendet einen task-optimierten Gemini-Validator, um die Einhaltung der Anweisung und die Ästhetik direkt zu bewerten, wodurch keine Notwendigkeit für Segmentierungs- oder Grounding-Modelle besteht. Inversion und kompositionelle Bootstrapping vergrößern die gesammelte Menge um etwa 2,2-fach und ermöglichen so großflächige, hochfidele Trainingsdaten. Durch die Automatisierung der am häufigsten wiederholten Annotierungsprozesse erlaubt dieser Ansatz eine neue Dimension des Trainings ohne menschliche Etikettierung. Um die Forschung in diesem ressourcenintensiven Bereich zu demokratisieren, veröffentlichen wir NHR-Edit: ein offenes Datensatz mit 358.000 hochwertigen Triplets. In der umfangreichsten Kreuz-Datensatz-Evaluation übertrifft es alle öffentlichen Alternativen. Wir veröffentlichen außerdem Bagel-NHR-Edit, ein offenes Quellcode-Modell, das auf Bagel vortrainiert wurde, und erreicht in unseren Experimenten die führenden Metriken.