HyperAIHyperAI

Command Palette

Search for a command to run...

2 年前

通过基于照片级真实感风格迁移的多参考方法实现老照片现代化

Agus Gunawan Soo Ye Kim Hyeonjun Sim Jae-Ho Lee Munchurl Kim

一键唤醒老照片 (FLUX.1 + LivePortrait)

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

本文首次提出了一种通过统一的方式进行风格化和增强的老照片现代化方法。为了实现老照片的现代化,我们提出了一种新颖的基于多参考的老照片现代化(MROPM)框架,该框架由网络 MROPM-Net 和一种新颖的合成数据生成方案组成。MROPM-Net 通过基于照片级真实感风格迁移(PST)利用多个参考对老照片进行风格化,并进一步增强结果以生成具有现代感的图像。同时,合成数据生成方案训练网络有效利用多个参考来执行现代化处理。为了评估性能,我们提出了一个新的老照片基准数据集(CHD),包含多样化的自然室内和室外场景。大量实验表明,所提出的方法在真实老照片的现代化处理上优于其他基线方法,尽管在训练过程中未使用任何老照片。此外,我们的方法能够为老照片中的每个语义区域从多个参考中适当选择风格,从而进一步提升现代化效果。

一句话总结

本文介绍了 MROPM-Net,这是一种多参考写实风格迁移框架,通过利用一种新颖的合成数据生成方案,将风格化与增强统一起来。该框架能够在不依赖真实老照片进行训练的情况下,选择性地将参考风格应用于语义区域,从而在新增的 CHD 基准测试上超越现有基线方法。

核心贡献

  • MROPM-Net 框架统一了写实风格迁移与图像增强,利用多张参考图像实现老照片的现代化更新。该架构能够在不依赖语义分割掩码或缓慢优化过程的情况下,跨多种语义区域实现局部风格化。
  • 一种新颖的合成数据生成方案用于训练网络,使其能够有效聚合多张参考图像中的风格,首次实现了多风格写实风格迁移的端到端应用。该模型会自动为每个语义区域选择适当的参考风格,以确保全面覆盖。
  • 引入 CHD 基准数据集以标准化针对多样化自然室内外场景的评估。大量实验表明,尽管该方法仅在合成数据上进行训练,但在真实老照片上仍优于现有基线方法。

引言

保护文化遗产通常需要修复并更新存在结构损坏与色彩褪化的老旧照片。尽管先前研究已探索自动化修复与单参考着色技术,但这些方法难以捕捉自然场景的复杂语义,且经常导致图像残留过时的棕褐色调,或依赖不可靠的 GAN 生成参考图。该研究利用写实风格迁移技术,提出了一种统一框架,通过融合多张当代参考图像来实现老照片的现代化更新。该方法在局部风格化过程中无需语义分割,并采用合成数据训练策略,使模型能够在训练阶段从未接触真实历史图像的情况下实现泛化。为支持此项工作,研究团队还引入了一个包含 644 张室内外遗产照片的新基准数据集。

数据集

  • 数据集构成与来源: 研究团队引入了文化遗产数据集(CHD),包含 644 张 20 世纪的老照片。这些图像最初拍摄于反转片或相纸上,来源于韩国三家国立博物馆:国立中央博物馆、金海国立博物馆和济州国立博物馆。该合集涵盖了多样化的室内外文化遗产场景,包括特别展览与考古遗址,呈现出不同程度的色彩褪色、模糊与噪声,同时仅伴有轻微划痕或裂纹。

  • 子集详情与筛选: 初步收集后,研究团队过滤掉包含敏感元素(如可识别的面部或车牌)的图像。剩余照片按 8:2 的比例随机划分,生成 514 张训练图像与 130 张测试图像,同时保留各博物馆的比例分布。训练子集包含真实退化照片,而测试子集则作为该任务评估的基准。

  • 数据用途与参考图构建: 训练集划分仅用于开发基线修复模型,此类模型需要真实老照片来弥合合成数据与真实数据之间的域差异。测试集划分用于驱动基于参考图的现代化任务,其中每张退化图像会配对一张或两张人工筛选的现代参考照片。研究团队从网络抓取具有匹配语境且采用 CC 许可的图像,但发现基于 VGG-19 特征相似度或 BRISQUE 分数的自动选择方法始终倾向于选取模糊的老旧风格图像,而非现代图像。因此必须采用人工筛选,且数据集仅提供参考图的网页链接与署名,而非图像文件本身。

  • 裁剪、元数据与增强: 所有原始以 4K 至 8K 分辨率扫描的图像均被调整尺寸,使最短边达到 1024 像素,随后进行中心裁剪至统一的 1024×1024 大小。相同的预处理流程同时应用于老照片及其现代参考图。针对基线训练,研究团队使用风格变体变换生成合成退化变体,包括颜色抖动以及高斯模糊、斑点噪声、缩放伪影和 JPEG 压缩等随机非结构化退化效果。这些效果与随机旋转、平移和翻转等风格不变增强技术相结合,以提升模型鲁棒性。

方法

本文提出的 MROPM-Net 采用双子网架构,以实现基于多参考图的老照片现代化更新。该框架包含一个共享的单风格化子网 S\mathcal{S}S 与一个融合细化子网 M\mathcal{M}M。给定老照片输入 cccNNN 张现代照片参考 s={si}i=1Ns = \{s_i\}_{i=1}^Ns={si}i=1N,流程始于 S\mathcal{S}S,其构建于写实风格迁移(PST)主干网络之上。该子网独立使用每张参考 sis_isiccc 进行风格化,生成 NNN 个风格化特征 SFiSF_iSFi 及对应的关联矩阵 CMiCM_iCMi。关联矩阵捕捉内容与风格之间的语义相似性,随后在融合细化子网 M\mathcal{M}M 中用于生成最终的现代化输出。整体框架如下图所示。

单风格化子网 S\mathcal{S}S 旨在无需语义分割的情况下执行局部与全局风格迁移。其架构(见下图)由两部分组成:改进的 PST 网络与风格代码预测器。PST 网络基于预训练编码器 θenc\theta_{enc}θenc,该编码器从老照片 ccc 中提取特征图 FckF_c^kFck,并从参考图 sis_isi 中提取 FsikF_{s_i}^kFsik。该网络对 WCT2 架构进行了修改以解决其局限性,例如仅影响最后一个解码器块的“短路”问题。为克服此问题,研究团队仅在拉普拉斯金字塔表示的 level-0 中转移单个高频分量,而非 WCT2 中的三个分量。风格化操作仅应用于解码器部分,具体为最后两个解码器块,以在写实度与风格迁移效果之间取得最佳平衡。此外,网络采用可微的自适应实例归一化(AdaIN)替代不可微的 WCT 变换,从而实现局部风格的学习与预测。

S\mathcal{S}S 内的风格代码预测器负责生成风格代码 ψ={μ,σ}\psi = \{\mu, \sigma\}ψ={μ,σ},包含用于 AdaIN 操作的均值与标准差数值。该预测器由两个提取器组成:局部统计提取器与全局统计提取器。局部提取器处理预训练 PST 网络的最后两个解码器块(j=1,2j=1,2j=1,2),使用核大小为 3 的局部均值滤波器 HμH_\muHμ 与局部标准差滤波器 HσH_\sigmaHσ,随后经过卷积块,以获取局部风格代码 ψlj={μ^lj,σ^lj}\psi_l^j = \{\hat{\mu}_l^j, \hat{\sigma}_l^j\}ψlj={μ^lj,σ^lj}。全局提取器计算相同层级的通道级均值与标准差数值,随后进行空间重复。局部与全局代码随后通过非局部注意力机制与内容 ccc 对齐。该对齐过程首先将 cccsis_isi 的特征图映射至同一特征空间,通过矩阵乘法计算关联矩阵 CMiCM_iCMi,随后利用该矩阵将局部风格代码 ψlj\psi_l^jψlj 对齐至 ccc。对齐后的风格代码 ψaj\psi_a^jψaj 经过残差块细化以减轻插值伪影。最后,细化后的局部风格代码 ψ^aj\hat{\psi}_a^jψ^aj 通过融合模块与全局风格代码 ψgj\psi_g^jψgj 融合,该模块执行通道级拼接后接卷积操作,从而生成最终融合风格代码 ψfj\psi_f^jψfj。这些融合代码随后在 PST 网络中用于对 ccc 进行风格化,并生成分化特征 SFiSF_iSFi

融合细化子网 M\mathcal{M}MNNN 个风格化特征 {SFi}i=1N\{SF_i\}_{i=1}^N{SFi}i=1N 及其对应的关联矩阵 {CMi}i=1N\{CM_i\}_{i=1}^N{CMi}i=1N 作为输入。融合过程旨在从多种风格化结果中为每个语义区域选择最合适的风格。该过程通过空间注意力模块(SAM)实现,该模块基于关联矩阵 CMiCM_iCMi 为每个 SFiSF_iSFi 计算注意力权重 WisaW_i^{sa}Wisa。权重经 Softmax 归一化得到 WnorsaW_{nor}^{sa}Wnorsa,随后用于对风格化特征进行加权。加权特征求和后生成中间融合图像 c^m\hat{c}_mc^m。该过程详见下图。

中间结果 c^m\hat{c}_mc^m 进一步由基于 U-Net 的细化子网进行细化,以生成最终的现代化图像 c^\hat{c}c^。该细化子网遵循 U-Net 架构,包含编码器与解码器结构。编码器由一系列卷积块组成:C64C128C256C512C512C512C512C64 - C128 - C256 - C512 - C512 - C512 - C512C64C128C256C512C512C512C512,其中 CCC 表示卷积层。解码器遵循相应的结构:CD512CD512CD512CD256CD128CD64CD512 - CD512 - CD512 - CD256 - CD128 - CD64CD512CD512CD512CD256CD128CD64。编码器中使用斜率为 0.2 的 Leaky ReLU 激活函数,而解码器中使用 ReLU 激活函数。最终输出由单个卷积层生成,后接 Tanh 激活函数以将特征映射至 RGB 色彩空间。实例归一化层应用于整个 U-Net 架构中。

实验

该方法在合成退化图像与真实老照片上进行了评估,并与序列方法及基于参考图的最先进基线进行对比,验证了其利用单参考或多参考联合风格化与增强图像的能力。定性评估与消融实验表明,网络有效利用自适应注意力机制,从多张参考图中选择并将适当风格迁移至对应语义区域;同时,集成损失函数与融合细化子网确保了平滑且无伪影的现代化更新,这是纯修复方法无法实现的。用户研究与额外鲁棒性测试证实,该框架在不同场景(包括无关参考图、灰度输入与严重退化)下均能稳定输出自然现代化的结果,最终证明将定向风格迁移与增强相结合可在无需对真实老照片进行训练的情况下,实现更优的实际表现。

研究团队在定量评估中将该方法与多种基线进行对比,采用 PSNR、SSIM 与 LPIPS 等指标。该方法取得最高的 PSNR 与最低的 LPIPS,表明其在像素级精度与感知质量方面均表现优异。在 SSIM 指标上,该方法位列第二,显示出较强的结构保持能力。结果表明,该方法通过有效结合风格化与增强,在老照片现代化任务上优于现有方法。该方法在 PSNR 与 LPIPS 指标上均优于所有对比方法。在 SSIM 指标上位列第二,表明其相比基线具有更强的结构保持能力。该方法在合成图像与真实照片评估中均超越基线,展现出稳健的性能。

研究团队在真实老照片上利用无参考图像质量评估指标对其方法进行了评估。结果表明,该方法在 NIQE 与 BRISQUE 两项指标上均优于所有基线,其中单参考版本的得分优于多参考版本。多参考版本的方法取得了最佳性能。与所有基线相比,该方法获得了最优的 NIQE 与 BRISQUE 分数。单参考版本在 NIQE 与 BRISQUE 指标上的表现优于多参考版本。该方法在 NIQE 与 BRISQUE 指标上均显著超越所有基线。

研究团队从图像数量、年代、内容类型、色彩空间与分辨率等方面将该方法与现有数据集进行了对比。该方法使用了更多 20 世纪的图像,专注于彩色的室内外自然场景,且分辨率高于其他数据集。所有数据集均未提供专家级真实标注。与其余数据集相比,该方法采用了规模更大的数据集,包含更多 20 世纪图像。该方法专注于彩色的室内外自然场景,而其他数据集主要关注灰度人脸或肖像。该方法具有更高的分辨率,且不提供专家级真实标注,这一点与其他数据集不同。

研究团队开展用户研究,将该方法与基线进行对比,评估真实老照片的现代化更新结果。结果表明,该方法优于其他基线,在顶级排名中取得最高选择率。该方法在单参考与多参考场景中均展现出优越性能,在不同参考配置下用户偏好优势一致。与所有基线相比,该方法在顶级排名中获得了最高的用户偏好度。该方法在单参考与多参考场景中均显著优于基线。结果表明,在不同参考配置下,用户对该方法均保持一致的偏好。

研究团队在合成图像与真实老照片上利用 PSNR、SSIM 与 LPIPS 等指标将该方法与多种基线进行对比。该方法在合成数据上取得最佳的 PSNR 与 LPIPS 性能,并在用户研究中超越其他基线,通过有效的风格化与增强展现出更优的现代化更新结果。该方法对真实场景(包括灰度照片与包含无关参考图的情况)也展现出强大的泛化能力,同时在多参考输入下保持性能稳定。与基线相比,该方法在合成数据上获得最高的 PSNR 与 LPIPS 分数,表明其在像素级与感知质量方面更优。该方法在用户研究中优于基线,选择率更高,展现出更好的整体现代化结果。该方法在多参考情况下保持强劲性能,并能很好地泛化至真实场景,包括灰度照片与无关参考图。

通过在单参考与多参考配置下对合成图像与真实老照片进行全面测试,该方法与多种基线进行了对比评估。这些实验验证了该方法相较于现有技术,在提升历史图像视觉保真度、结构连贯性与感知真实感方面的能力。用户偏好研究进一步佐证了这些发现,表明该方法在不同参考场景中均具有稳定的选择优势。最终,该方法被证明具有极高的鲁棒性与适应性,能够成功泛化至多样化的真实条件,并在照片现代化任务中有效平衡风格化与增强效果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供