HyperAIHyperAI

Command Palette

Search for a command to run...

3 年前

基于条件对抗网络的神经艺术风格迁移

Pathirage N. Deelaka

神经风格迁移

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

神经艺术风格转换(NST)模型可以通过添加著名图像的风格来修改简单图像的外观。尽管转换后的图像并不完全像相应风格图像同一艺术家创作的艺术作品,但生成的图像仍然具有吸引力。通常,训练好的 NST 模型专用于一种风格,且单个图像代表该风格。然而,在一种新风格下生成图像是一个繁琐的过程,包括完整的模型训练。在本文中,我们提出了两种迈向风格图像无关的神经风格迁移模型的方法。换句话说,经过训练的模型可以在任何内容-风格图像输入对的情况下生成语义准确的图像。我们的新颖贡献在于一种单向 GAN 模型,该模型通过其架构确保循环一致性。此外,这导致了更小的模型尺寸以及高效的训练和验证阶段。

一句话总结

作者提出了一种用于风格无关神经风格迁移的单向生成对抗网络。该网络通过架构设计强制实现循环一致性,从而无需对整个模型进行重新训练。这种设计紧凑、训练高效,能够针对任意内容与风格组合生成语义准确的图像。

核心贡献

  • 本文提出了一种风格与图像无关的神经风格迁移框架,该框架无需全模型重新训练,即可针对任意内容与风格对生成语义准确的输出。
  • 提出了一种新颖的单向生成对抗网络架构,该架构通过结构设计直接强制实现循环一致性,解决了传统成对图像与单图像翻译模型在输入方面的限制。
  • 与传统的风格迁移方法相比,该架构设计显著减小了模型体积,同时简化了训练与验证流程。

引言

神经风格迁移使计算机能够将一幅图像的艺术特征应用到另一幅图像上,这一能力在数字艺术创作和自动化内容生成中具有重要价值。然而,传统模型通常被锁定在单一参考风格上,导致用户每次需要新美学风格时都必须重新训练整个网络。以往的基于生成对抗网络的方法也面临成对数据需求、受限的单输入架构以及难以清晰分离内容与风格特征等挑战。为突破这些瓶颈,作者开发了一种基于单向生成对抗网络的风格无关迁移框架,将循环一致性直接嵌入网络结构中。这一架构创新消除了按风格重新训练的需求,大幅缩小了模型体积,并实现了更快、更高效的训练与验证周期。

方法

作者提出了两种基于生成对抗网络(GAN)的神经风格迁移(NST)方法,每种方法均采用独特的架构与训练范式,旨在解决传统基于卷积神经网络方法的局限性。第一种方法称为 rGAN 模型,采用条件生成对抗网络框架,其中单个生成器与两个独立的判别器配对,分别评估生成图像的内容与风格。该生成器基于带有跳跃连接的 U-Net 架构,同时接收内容图像与风格图像作为输入。它将内容图像的特征与风格图像的局部-全局融合表示编码至潜在空间,随后由解码器重建出风格迁移后的图像。内容判别器采用 PatchGAN 架构,用于评估局部图像块的真实性,以防止混叠伪影并保留内容图像的原始调色板。相比之下,风格判别器实现为小波卷积神经网络,旨在跨多分辨率捕捉全局与局部特征,以实现有效的风格提取。rGAN 的整体目标函数将两个判别器的对抗损失与 L1 重建损失相结合,以确保感知清晰度。

第二种方法通过取消独立的判别器模型引入了显著的架构变革。取而代之的是,生成器由三个独立的参数空间组成:内容编码器、风格编码器和解码器。内容与风格编码器分别从各自的输入图像中提取潜在特征向量。这些特征随后被输入解码器以生成最终的风格迁移图像。核心创新在于训练过程:内容与风格编码器模型同时充当判别器。在训练期间,编码器被优化以最小化损失函数,该函数鼓励其为各自输入生成最优且具有判别性的特征,从而有效地将编码器作为对抗过程的一部分进行训练。内容编码器采用成对边际损失函数进行训练以确保语义一致性,而风格编码器则在度量学习目标下训练,以将相似风格的嵌入聚类在一起。随后,生成器利用这些预训练的编码器进行训练,以最小化对抗损失,确保生成的图像准确反映风格的同时保留内容语义。与第一种方法相比,这种共享参数空间的方法降低了整体模型复杂度,并提升了训练稳定性。

实验

本文评估了两种基于生成对抗网络的神经风格迁移方法,使用在独立数据集上训练的风格判别器与内容判别器,以验证训练稳定性与艺术保真度。第一种方法展现了稳定的收敛性,在保留原始内容颜色的同时成功迁移了风格纹理,且未引入视觉伪影。第二种方法进一步验证了动态批次采样与基于矩阵的损失计算的优势,通过显著降低过拟合与模式崩溃,生成了真实模拟艺术家独特风格而非简单复制参考特征的图像。总体而言,两种方法均优于传统的基于卷积神经网络的风格迁移技术,提供了更高的风格一致性与更纯净的视觉输出。

作者在表格中将所提出的两种方法与现有方法进行了对比,强调这两种方法均支持无成对样本训练,并在避免混叠伪影的同时保留原始图像颜色。结果表明,所提方法在调色板与纹理融合方面表现出较高的风格迁移保真度,且极少引入多余特征或伪影。生成图像在保持风格一致性的同时,有效避免了混叠伪影的产生。

该评估将两种所提方法与现有方法进行比较,以检验其在无成对风格迁移中的有效性。实验验证了两种技术均能成功保留原始图像颜色并消除混叠伪影,同时实现高度的风格保真度。定性分析表明,这些方法展现出稳健的纹理融合能力,并在不引入多余视觉特征的前提下保持源图像调色板,进一步证实了其在生成高质量风格迁移图像方面的整体优势。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供