HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 5 Tagen

EditThinker: Iteratives Denken für beliebige Bildbearbeitungsanwendungen freischalten

EditThinker: Iteratives Denken für beliebige Bildbearbeitungsanwendungen freischalten

Abstract

Die instruktionsbasierte Bildbearbeitung ist zu einem bedeutenden Forschungsfeld geworden, das dank bildgenerierender Grundmodellen hohe ästhetische Qualität erreicht hat, wodurch die Fähigkeit, Anweisungen genau zu befolgen, zur primären Herausforderung wurde. Bestehende Ansätze verbessern die Anweisungskonformität durch überwachtes oder verstärkendes Lernen, doch bleiben die Erfolgsraten bei Einzelschritten aufgrund inhärenter Stochastik und fehlender Reflexion begrenzt. In dieser Arbeit stellen wir einen reflektierenden Bearbeitungsrahmen vor, der „nachdenkt“, während er bearbeitet. Dieser simuliert den menschlichen kognitiven Prozess durch eine iterative Ausführung eines „Denken-während-Bearbeiten“-Zyklus: Beurteilung der Ergebnisse und Verbesserung der Anweisungen, gefolgt von wiederholter Generierung, bis ein zufriedenstellendes Ergebnis erzielt wird. Konkret trainieren wir ein einziges multimodales großes Sprachmodell (MLLM), EditThinker, als Denkmaschine dieses Rahmens, das gleichzeitig Bewertungsscore, Denkprozess und verfeinerte Anweisungen erzeugt. Durch verstärkendes Lernen richten wir das Denken des EditThinker an seine Bearbeitung an, wodurch gezieltere Verbesserungen der Anweisungen ermöglicht werden. Umfangreiche Experimente auf vier Benchmarks zeigen, dass unser Ansatz die Fähigkeit jedes Bildbearbeitungsmodells, Anweisungen zu folgen, erheblich verbessert. Wir werden unseren Datenaufbau-Framework, die Datensätze und die Modelle der Forschungsgemeinschaft zur Verfügung stellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EditThinker: Iteratives Denken für beliebige Bildbearbeitungsanwendungen freischalten | Forschungsarbeiten | HyperAI