HyperAIHyperAI

Command Palette

Search for a command to run...

使用 MedNIST 数据集的生成对抗网络

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

一句话总结

本研究提出了一种结合 Pix2Pix 与 CycleGAN 的框架,通过自动提取色彩提示并结合专门的动漫风格训练,对 Fakemon 线稿进行上色,生成了具有可行性的视觉效果,表明仍有进一步优化的空间。

核心贡献

  • 该研究提出了用于自适应线稿提取和自动色彩提示生成的新型算法,以实现动漫风格插画上色流程的自动化。
  • 本研究引入了一种混合架构,将 Pix2Pix 与 CycleGAN 的输出合并为单张上色图像,标志着这两种生成对抗网络首次在该任务中实现融合。
  • 该方法专门针对 Fakemon 线稿进行训练与评估,建立了首个面向类怪物生物的自动化上色框架,并展示了可行的视觉输出结果。

引言

作者致力于解决线稿自动上色问题,这是简化数字游戏与动画 2D 资产制作流程的关键步骤。尽管深度学习已很大程度上取代了手动优化技术,但现有的基于生成对抗网络(GAN)的流水线仍面临显著瓶颈。先前的方法通常依赖手动定义的调色板,受限于内存与训练条件难以处理高分辨率输入,且经常生成重复色彩模式等视觉伪影。此外,大多数现有模型的训练数据为人形角色而非奇幻生物,且缺乏自动提取色彩提示的机制。为弥补这些不足,作者提出了一种完全自动化的流水线,可直接从源图像中提取线稿与色彩提示。该系统专门针对动漫风格的怪物设计进行训练,并引入了一种新颖的架构,将 Pix2Pix 与 CycleGAN 的输出合并为单一、精细的上色结果。

数据集

  • 作者主要从 DeviantArt 收集了 880 张 Fakemon 角色的上色图像,并补充了少量自制示例。所有选定作品均采用知识共享(Creative Commons)许可协议,作者明确指出并不拥有这些角色的版权。
  • 完整数据集被划分为训练集与独立测试子集。少量图像仅保留用于结果可视化,未纳入训练流水线。
  • 该数据集用于训练 Pix2Pix 与 CycleGAN 架构以实现自动上色。由于数据规模有限,作者将两种模型结合以提升输出质量,并将该任务定义为一种特殊的图像到图像转换与风格迁移问题。
  • 线稿与色彩提示通过自定义的自适应阈值算法自动提取,该算法会根据角色像素密度动态调整容差。作者手动验证并优化了少量提取的线稿,但指出该步骤在实际工作流中并非必需。提取的色彩提示并非作为独立输入或调色板使用,而是以圆形色块的形式绘制在线稿上,形成单一的复合输入图像。所有图像均统一标准化为 256x256 分辨率,且未进行任何裁剪。

方法

作者采用结合 Pix2Pix 与 CycleGAN 的混合方法进行线稿上色,该方法建立在成熟的图像到图像转换框架之上。该方法的核心依赖于 Pix2Pix 框架,其采用条件生成对抗网络(cGAN)架构。在此架构中,基于 U-Net 的生成器将输入线稿转化为上色图像,而 PatchGAN 判别器则评估生成结果的真实性。生成器与判别器联合训练,生成器通过最小化损失函数,促使模型生成与真实示例难以区分的逼真上色图像。该框架支持结构化学习,像素值的分类信息会向相邻区域传播,从而在尊重输入空间关系的前提下实现连贯的上色效果。

流程首先使用自适应阈值算法从原始作品中提取线稿。该算法将输入图像转换为灰度图,构建直方图,并基于平均像素强度与用户定义的容差参数确定阈值。应用该阈值生成二值图像,以分离出线稿。随后,采用两阶段 k-中心点聚类方法自动提取色彩提示。在第一阶段,使用 k=35k=35k=35 进行 k-中心点聚类,将图像量化为最多 35 种独立颜色。该过程采用自定义距离函数,重点强调色相与饱和度差异,同时忽略空间坐标。此步骤降低了色彩复杂度,并为后续处理做好准备。

第二阶段再次应用 k-中心点聚类(k=10k=10k=10)并采用欧几里得距离度量,该度量平等融合颜色(r, g, b)与空间(x, y)信息,从而优化色彩提示集合。最终生成十个均匀分布的色彩提示,每个提示均以半径为 15 像素的圆形色块表示。这些色彩提示作为上色过程的引导,为生成器提供关键色彩信息,且无需大量人工干预。最终的色彩提示与线稿结合,形成图像到图像转换模型的输入对。

尽管 Pix2Pix 是用于上色的主要框架,CycleGAN 也在部分阶段进行了评估与融合。与需要配对输入输出图像的 Pix2Pix 不同,CycleGAN 专为非配对图像到图像转换设计,更适用于风格迁移。然而,由于其非配对特性,CycleGAN 并非直接用于线稿上色的理想选择,而是与 Pix2Pix 结合使用,以生成带有阴影的上色结果。作者通过实验将生成器与判别器的滤波器参数(ngf 与 ndf)调整为 150,此举提升了模型性能,且未对整体结果产生显著影响。该调整增强了模型在上色过程中捕捉细微细节的能力。这些组件的结合实现了一条稳健高效的流水线,仅需极少的人工干预即可完成线稿自动上色。

实验

实验在标准桌面 GPU 环境下进行,评估主要依赖人工视觉检查而非定量指标。Pix2Pix 展现出优异的色彩保真度与清晰的边界贴合度,适用于游戏美术;而 CycleGAN 则在捕捉色调变化与细微阴影效果方面表现突出。通过除法混合模式结合两种模型,成功整合了各自的优势,生成了色调更柔和、分布更均衡的结果。尽管在 Pix2Pix 中手动添加色彩提示带来了局部的微小改进,但整体定性提升仍然有限,这证实了自动化方法能够为创意应用提供可行的基线着色方案。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供