EditThinker: Iteratives Denken für beliebige Bildbearbeitungsanwendungen freischalten
EditThinker: Iteratives Denken für beliebige Bildbearbeitungsanwendungen freischalten

Abstract
Die instruktionsbasierte Bildbearbeitung ist zu einem bedeutenden Forschungsfeld geworden, das dank bildgenerierender Grundmodellen hohe ästhetische Qualität erreicht hat, wodurch die Fähigkeit, Anweisungen genau zu befolgen, zur primären Herausforderung wurde. Bestehende Ansätze verbessern die Anweisungskonformität durch überwachtes oder verstärkendes Lernen, doch bleiben die Erfolgsraten bei Einzelschritten aufgrund inhärenter Stochastik und fehlender Reflexion begrenzt. In dieser Arbeit stellen wir einen reflektierenden Bearbeitungsrahmen vor, der „nachdenkt“, während er bearbeitet. Dieser simuliert den menschlichen kognitiven Prozess durch eine iterative Ausführung eines „Denken-während-Bearbeiten“-Zyklus: Beurteilung der Ergebnisse und Verbesserung der Anweisungen, gefolgt von wiederholter Generierung, bis ein zufriedenstellendes Ergebnis erzielt wird. Konkret trainieren wir ein einziges multimodales großes Sprachmodell (MLLM), EditThinker, als Denkmaschine dieses Rahmens, das gleichzeitig Bewertungsscore, Denkprozess und verfeinerte Anweisungen erzeugt. Durch verstärkendes Lernen richten wir das Denken des EditThinker an seine Bearbeitung an, wodurch gezieltere Verbesserungen der Anweisungen ermöglicht werden. Umfangreiche Experimente auf vier Benchmarks zeigen, dass unser Ansatz die Fähigkeit jedes Bildbearbeitungsmodells, Anweisungen zu folgen, erheblich verbessert. Wir werden unseren Datenaufbau-Framework, die Datensätze und die Modelle der Forschungsgemeinschaft zur Verfügung stellen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.