EditScore: Freigabe von Online-RL für die Bildbearbeitung durch belastbare Belohnungsmodellierung
Xin Luo Jiahao Wang Chenyuan Wu Shitao Xiao Xiyan Jiang Defu Lian Jiajun Zhang Dong Liu Zheng Liu

Abstract
Die an Anweisungen orientierte Bildbearbeitung hat erhebliche Fortschritte erzielt, dennoch stehen aktuelle Modelle vor Herausforderungen bei komplexen Anweisungen und erfordern oft mehrere Proben, um ein gewünschtes Ergebnis zu erzielen. Die Verstärkende Lernverfahren (Reinforcement Learning, RL) bieten eine vielversprechende Lösung, ihre Anwendung in der Bildbearbeitung ist jedoch erheblich eingeschränkt durch das Fehlen eines hochwertigen, effizienten Belohnungssignals. In dieser Arbeit präsentieren wir eine umfassende Methodologie, um diese Hürde zu überwinden, die auf der Entwicklung eines state-of-the-art, spezialisierten Belohnungsmodells basiert. Zunächst führen wir EditReward-Bench ein, eine umfassende Benchmark, um Belohnungsmodelle systematisch hinsichtlich der Bearbeitungsqualität zu evaluieren. Aufbauend auf dieser Benchmark entwickeln wir EditScore, eine Reihe von Belohnungsmodellen (7B–72B), die zur Bewertung der Qualität anweisungsgeleiteter Bildbearbeitung dienen. Durch sorgfältige Datenauswahl und -filterung erreicht EditScore eine Leistung, die der von proprietären VLMs (Vision-Language-Modellen) entspricht. Darüber hinaus ermöglicht eine effektive Selbst-Ensemble-Strategie, die speziell auf die generative Natur von EditScore abgestimmt ist, dass unsere größte Variante sogar GPT-5 in der Benchmark übertrifft. Wir zeigen anschließend, dass ein hochwertiges Belohnungsmodell der Schlüssel für die Realisierung von Online-RL in der Bildbearbeitung ist. Unsere Experimente belegen, dass selbst die größten Open-Source-VLMs kein wirksames Lernsignal liefern können, während EditScore eine effiziente und robuste Politikoptimierung ermöglicht. Die Anwendung unseres Frameworks auf ein leistungsfähiges Basismodell, OmniGen2, führt zu einem Endmodell mit einer deutlichen und konsistenten Leistungssteigerung. Insgesamt liefert diese Arbeit den ersten systematischen Weg von der Benchmarking-Phase über die Belohnungsmodellierung bis hin zur RL-Training in der Bildbearbeitung und zeigt, dass ein hochwertiges, domainspezifisches Belohnungsmodell der Schlüssel dafür ist, das volle Potenzial von RL in diesem Bereich zu erschließen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.