HyperAIHyperAI

Command Palette

Search for a command to run...

SmartPhotoCrafter:面向自动摄影图像编辑的统一推理、生成与优化框架

摘要

传统的摄影图像编辑通常要求用户具备足够的审美理解力,以便通过提供适当的指令来调整图像质量和相机参数。然而,这种范式依赖于人类对审美意图的显式指令,而这类指令对于非专业用户而言,往往具有模糊性、不完整性或难以表达。此外,近期的编辑模型大多依赖于用户提供的指令,缺乏理解审美缺陷并推理改进策略的能力。在本研究中,我们提出了 SmartPhotoCrafter,这是一种自动化的摄影图像编辑方法,它将图像编辑构建为一个紧密耦合的“从推理到生成”(reasoning-to-generation)的过程。该模型首先通过 Image Critic 模块进行图像质量理解并识别缺陷,随后由 Photographic Artist 模块实现针对性的编辑以提升图像的吸引力,从而无需显式的人类指令。我们采用了多阶段训练 pipeline:(i) 基础预训练(Foundation pretraining),旨在建立基础的审美理解和编辑能力;(ii) 结合推理引导的多重编辑监督进行适配(Adaptation),以引入丰富的语义指导;(iii) 通过协调一致的“从推理到生成”强化学习(Coordinated reasoning-to-generation reinforcement learning),对推理与生成过程进行联合优化。

一句话总结

SmartPhotoCrafter 是一种自动摄影图像编辑方法,它将编辑构建为一个紧密耦合的推理到生成过程,利用 Image Critic 模块进行缺陷识别,利用 Photographic Artist 模块进行针对性编辑,以通过多阶段训练管道增强图像吸引力,该管道包括基础预训练、带有推理引导的多编辑监督的适应,以及协调的推理到生成强化学习,从而消除对显式人类指令的需求。

核心贡献

  • SmartPhotoCrafter 被提出作为一种自动摄影图像编辑方法,将任务构建为利用 Image Critic 模块和 Photographic Artist 模块的紧密耦合推理到生成过程,消除对显式人类指令的需求。
  • 采用多阶段训练管道,包括基础预训练、带有推理引导的多编辑监督的适应,以及协调的推理到生成强化学习,以联合优化推理和生成。
  • 实验结果表明,SmartPhotoCrafter 在各种增强场景中实现了强劲的性能,同时支持语义引导且光度敏感的自动照片级编辑。

引言

自动摄影编辑需要平衡审美感知与技术调整,然而现有的指令驱动模型严重依赖用户专业知识来定义改进策略。当前方法通常缺乏诊断图像缺陷或执行高质量增强所需的细微光度细化的能力。为了解决这些差距,作者提出了 SmartPhotoCrafter,一个将多模态推理与图像生成集成的统一框架。该方法采用 Image Critic 模块来评估质量,并通过紧密耦合的推理到生成过程引导 Photographic Artist 模块。作者实施了一个具有协调强化学习的多阶段训练管道,以联合优化语义理解和光度保真度,无需显式人类指令。

数据集

  • 总体策略 作者设计了特定于阶段的训练集,以在训练管道中逐步塑造推理能力、可控生成和跨模块协作。

  • Image Critic 数据集

    • 来源: 结合 IQA 数据集(KonIQ, KADID, SPAQ)与图像失真数据集(FoundIR, RealBlur, TMM22, LOL, ISTD, RDD, SRD)以及编辑相关数据(GoPro)。
    • 处理: 使用 Qwen2.5-VL-72B 生成 Chain-of-Thought 推理、标量质量评估和结构化编辑建议。
    • 过滤: 保留 IQA 数据的原始 MOS 分数,同时替换模型预测的分数以减少噪声。排除生成推理与注释失真标签冲突的样本。
    • 训练规模: 约 80K 个注释样本用于基础预训练。
    • 输出格式: 自回归 SFT 生成形式为 [reasoning → suggestion → score] 的结构化输出。
  • Photographic Artist 数据集

    • 来源: 利用公共恢复对和 FilmSet 数据集进行调色。景深数据来自 RealBokeh 和 BokehDiff。
    • 处理: 构建特定于任务的提示用于恢复(例如,去除模糊)。通过对曝光、对比度、饱和度和 CCT 应用参数化调整来生成合成润色对。创建多级模糊对以进行景深控制,并在恢复数据上堆叠随机润色调整以实现多编辑能力。
    • 训练规模: 约 160K 个带指令提示的配对图像用于第一阶段。
  • 统一理解与生成

    • 来源: 利用 FiveK 数据集的图像对和 AVA 数据集的高审美图像。
    • 处理: 对 AVA 图像应用随机合成退化以创建带有相应编辑操作的退化-GT 对。
    • 训练规模: 在第二阶段包含约 30K 个样本,在第三阶段包含 18K 个样本,以联合优化两个模块。

方法

SmartPhotoCrafter 框架通过将自动摄影增强构建为推理引导的图像增强问题来解决这一挑战。架构建立在两个互补模块之上:负责审美理解的 Image Critic (fcf_cfc) 和负责高保真生成的 Photographic Artist (faf_afa)。该系统旨在生成增强输出图像 Xe\mathbf{X}_{e}Xe,使其具有视觉吸引力并与输入 X\mathbf{X}X 语义一致。

参考框架图以了解数据构建和统一理解管道的概述。

Image Critic 将输入图像 X\mathbf{X}X 解释为包含三个部分的结构化输出:Chain-of-Thought 审美推理陈述 R\mathcal{R}R、指定可操作变换的编辑建议 E\mathcal{E}E,以及预测的质量分数 S\mathcal{S}S。该模块利用来自多样来源的高质量 CoT 注释,包括图像质量评估数据集以及涉及恢复和润色的摄影增强对。Photographic Artist 然后根据输入图像 X\mathbf{X}X 和来自 Image Critic 的推理潜在变量 Hc\mathbf{H}_{c}Hc 生成编辑图像 Xe\mathbf{X}_{e}Xe。此设计确保生成的编辑在推理过程中具有语义基础,而不是仅依赖文本提示。

为了实现统一的审美理解和忠实编辑,作者采用多阶段训练管道。在第一阶段,基础预训练,两个模块独立进行监督微调(SFT)。Image Critic 在 IQA 和编辑数据集上训练以学习质量评估和建议生成,而 Photographic Artist 在大规模恢复和润色数据集上使用流匹配目标进行训练。

第二阶段,推理条件适应,语义耦合两个模块。Photographic Artist 通过基于 Image Critic 生成的推理潜在状态进行条件化,以适应推理引导的编辑。生成过程定义为:

Xe=fa(X,Hc),Hc=Concat(h0(L),h1(L),,hT1(L)),\mathbf { X } _ { e } = f _ { a } ( \mathbf { X } , \mathbf { H } _ { c } ) , \quad \mathbf { H } _ { c } = \operatorname { C o n c a t } \Big ( \mathbf { h } _ { 0 } ^ { ( L ) } , \mathbf { h } _ { 1 } ^ { ( L ) } , \ldots , \mathbf { h } _ { T - 1 } ^ { ( L ) } \Big ) \, ,Xe=fa(X,Hc),Hc=Concat(h0(L),h1(L),,hT1(L)),

其中 Hc\mathbf{H}_{c}Hc 表示 Critic 产生的基于推理的潜在变量。该潜在表示是通过连接上下文和推理隐藏状态获得的,作为将模型从简单指令遵循中移开的条件信号。

最后阶段涉及协调的推理到生成强化学习。在此,作者提出了一个统一 RL 框架,其中 GRPO 优化 Image Critic 进行离散推理,DiffusionNFT 优化 Photographic Artist 进行连续生成。这种闭环优化解决了仅依靠监督数据的局限性,允许系统探索摄影调整的全部空间。

参考训练管道图以了解应用于每个模块的奖励机制的详细可视化。

奖励设计对于使模型与摄影审美对齐至关重要。对于 Photographic Artist,采用多级奖励机制,定义为 rPA=rcomp×(λ1rphoto+λ2rperc)r_{\mathrm{PA}} = r_{\mathrm{comp}} \times (\lambda_1 r_{\mathrm{photo}} + \lambda_2 r_{\mathrm{perc}})rPA=rcomp×(λ1rphoto+λ2rperc)。语义合规奖励(rcompr_{\mathrm{comp}}rcomp)作为门控因素,确保生成的图像遵循 Critic 的编辑意图。光度控制奖励(rphotor_{\mathrm{photo}}rphoto)通过测量与真实值的属性偏差来调节曝光和对比度等调整的幅度。最后,感知一致性奖励(rpercr_{\mathrm{perc}}rperc)使用 LPIPS 来强制结构和纹理保真度。

对于 Image Critic,奖励设计侧重于推理格式、分数排名和编辑建议质量。分数排名奖励构建输入 - 编辑对以确保 Critic 正确识别改进,而编辑建议奖励通过评估建议的操作是否在光度属性空间中使图像更接近高审美目标来鼓励探索合理的编辑策略。

实验

SmartPhotoCrafter 在自动摄影增强、多编辑指令遵循和图像恢复任务中进行评估,以评估其在改善审美的同时保留内容的能力。该模型通过实现感知质量和分布一致性之间的优越平衡而优于基线,同时不引入伪影或不自然的风格化。此外,消融研究强调了润色感知奖励设计在指导真实色调调整和防止优化期间分布漂移方面的必要性。这些发现共同验证了该系统在执行复杂编辑指令和泛化到各种低级恢复场景中的鲁棒性。

作者使用一系列感知和语义指标,针对几个开源生成基线评估其方法的自动摄影增强能力。结果表明,所提出的方法在语义对齐和分布保真度方面实现了最佳性能,同时保持具有竞争力的感知质量分数。这表明该模型有效地增强了视觉质量,同时保留了高级语义并确保与摄影图像分布的一致性。与所有基线相比,所提出的方法在语义一致性和分布保真度指标中取得了最高分数。该模型展示了具有竞争力的感知质量,在 MUSIQ 和 NIMA 评估中均排名第二。结果显示,与优先考虑审美分数的方法相比,在感知质量和分布一致性方面取得了更平衡的改进。

作者进行消融研究以评估强化学习和光度奖励对模型性能的影响。结果表明,虽然标准强化学习提高了感知质量,但会降低分布保真度。包含完整的奖励设计,包括光度约束,实现了最佳平衡,在感知、审美和语义指标上产生优越的分数。完整的强化学习配置在所有评估指标上实现了最高性能,包括 MUSIQ、NIMA 和 CLIP。没有光度奖励的强化学习导致 FID 显著增加,表明从自然图像分布发生漂移。所提出的奖励设计有效地引导模型走向真实的色调调整,同时保持高语义对齐。

作者针对几个基线评估其方法在去模糊和去雾任务上的恢复能力。结果表明,该方法在感知相似性和分布保真度指标上实现了最佳性能,同时在重建保真度方面保持具有竞争力的分数。这表明该方法通过平衡增强强度与内容保留,很好地泛化到经典恢复场景。所提出的方法在去模糊和去雾的感知指标(如 LPIPS、FID 和 DISTS)中取得了最佳分数。它展示了强大的重建保真度,在测试的恢复任务中,PSNR 和 SSIM 均排名靠前。该方法有效地泛化到低级图像恢复,显示出感知质量和结构一致性之间的有利平衡。

作者评估模型遵循结合图像恢复和润色任务的复杂多编辑指令的能力。所提出的方法在所有指标上均优于所有基线,展示了在保持高结构和语义保真度的同时,对指令的优越遵循能力。与其他方法相比,该方法在结构一致性和语义对齐方面取得了最高分数。它显著减少了感知差异和分布偏移,在 LPIPS 和 FID 方面优于基线。结果证实了模型有效执行组合恢复和润色任务的能力。

作者使用感知和语义指标,针对开源基线评估其方法在摄影增强、恢复和多编辑指令跟随任务上的表现。结果表明,所提出的方法实现了优越的语义对齐和分布保真度,同时保持具有竞争力的感知质量,特别是在利用完整强化学习奖励设计时。此外,该模型通过平衡增强强度与结构一致性,有效地泛化到经典恢复场景和复杂组合编辑任务。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供