HyperAIHyperAI

Command Palette

Search for a command to run...

Console
5 天前

EditThinker:解锁任意图像编辑器的迭代推理能力

EditThinker:解锁任意图像编辑器的迭代推理能力

摘要

基于指令的图像编辑已成为一个重要的研究方向。得益于图像生成基础模型的发展,该领域在美学质量方面取得了显著进展,因此如何准确遵循指令成为当前的主要挑战。现有方法通常通过监督学习或强化学习来提升指令遵循能力,但由于固有的随机性以及缺乏深度思考过程,单轮编辑的成功率仍然有限。为此,本文提出一种具有反思能力的编辑框架,使模型在编辑过程中“思考”,通过迭代执行“边编辑边思考”(Think-while-Edit)循环——即对当前结果进行批判性评估,并据此优化指令,随后重复生成过程,直至达到满意效果。具体而言,我们训练一个统一的多模态大语言模型(MLLM),命名为 EditThinker,作为该框架的推理引擎,使其能够联合生成批判性评分、推理过程以及优化后的指令。我们采用强化学习策略,使 EditThinker 的思考过程与其编辑行为保持一致,从而实现更具针对性的指令改进。在四个基准数据集上的大量实验表明,该方法显著提升了任意图像编辑模型的指令遵循能力,性能提升幅度显著。我们将公开数据构建框架、相关数据集及模型,以推动社区的进一步研究与发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供