17 天前

用于交互式图像合成与编辑的任意成本GANs

Ji Lin, Richard Zhang, Frieder Ganz, Song Han, Jun-Yan Zhu
用于交互式图像合成与编辑的任意成本GANs
摘要

生成对抗网络(GANs)已实现逼真的图像合成与编辑。然而,由于大规模生成器(如StyleGAN2)计算成本高昂,在边缘设备上执行单次编辑往往需要数秒才能看到结果,严重阻碍了交互式用户体验。本文受现代渲染软件的启发,提出了一种名为AnyCost GAN的新方法,以实现自然图像的交互式编辑。我们训练AnyCost GAN,使其能够支持灵活的分辨率与通道数配置,从而在不同速度下实现快速图像生成。通过运行完整生成器的子集,即可获得与完整生成器在感知上相似的输出,因此可作为高效的预览代理。借助基于采样的多分辨率训练、自适应通道训练以及生成器条件判别器的设计,AnyCost生成器能够在多种配置下高效评估,同时在图像质量上优于各自独立训练的模型。此外,我们还提出新型编码器训练方法与潜在码优化技术,以增强不同子生成器在图像投影过程中的一致性。AnyCost GAN可在不同计算预算下运行(最高实现10倍计算量减少),并适配广泛的硬件平台与延迟需求。在桌面CPU及边缘设备上部署时,该模型可实现6至12倍的加速,提供感知上与原图高度一致的实时预览,真正实现交互式图像编辑。相关代码与演示已公开发布:https://github.com/mit-han-lab/anycost-gan。