
摘要
近年来,生成对抗网络(GAN)在图像视觉质量方面取得了显著进展。然而,这些网络在高频内容的生成上仍存在质量退化问题,其根源在于频谱偏向的网络架构以及不理想的损失函数设计。为解决这一问题,本文提出一种新型通用型基于风格与小波的生成对抗网络(Style and WAvelet based GAN,简称 SWAGAN),该模型在频域中实现渐进式生成。SWAGAN 在其生成器与判别器架构中全面引入小波变换,确保在每一步生成过程中均保持对频率特性的感知能力,从而构建出具有频率感知特性的潜在表示。该方法显著提升了生成图像的视觉质量,并大幅增强了计算效率。我们通过将所提方法集成至 StyleGAN2 框架中进行验证,结果表明:在小波域中进行内容生成能够生成具有更真实高频细节的高质量图像。此外,实验还证明,SWAGAN 所构建的潜在空间保留了 StyleGAN 所具备的优良特性,使其仍可作为多种图像编辑任务的基础。同时,我们的频域感知机制也显著提升了下游视觉任务的生成质量,进一步验证了该方法的有效性与普适性。