6 个月前

摘要

最新的生成对抗网络（Generative Adversarial Networks, GANs）通过大规模训练取得了卓越的性能，但其通常依赖于包含数百万参数的复杂模型，对计算资源提出了极高要求。构建如此庞大的模型不仅降低了模型的可复现性，还加剧了训练过程中的不稳定性。此外，对于多通道数据（如图像或音频），传统方法通常采用实值卷积网络进行处理，将输入展平并拼接，这一过程往往导致通道内部的空间关联信息丢失。为应对上述复杂性高和信息损失的问题，本文提出了一类基于四元数域（quaternion-valued）的生成对抗网络（Quaternion-valued GANs, QGANs）。QGANs充分利用四元数代数的特性，例如哈密顿乘积（Hamilton product），能够将多通道数据作为一个整体进行处理，有效捕捉通道间的内在潜在关系，同时将模型总参数量减少约四分之三。我们详细阐述了QGANs的设计方法，并进一步将其扩展至先进的网络架构中。在多个图像生成基准测试中，我们将所提出的QGANs与传统的实值GANs进行了对比。实验结果表明，QGANs在FID（Fréchet Inception Distance）指标上优于实值GANs，生成的图像在视觉质量上也更为出色。更重要的是，QGANs在训练参数方面最多可节省75%。我们认为，这些成果为开发新型、更具可及性的GAN模型开辟了新路径，有望在提升性能的同时显著降低计算资源消耗。

源 PDF