
摘要
在大多数现有的学习系统中,图像通常被视为二维像素阵列。然而,在一种日益流行的新范式中,二维图像被表示为隐式神经表示(Implicit Neural Representation, INR)——一种多层感知机(MLP),可根据像素的(x, y)坐标预测其RGB值。本文提出两种新颖的架构技术,用于构建基于INR的图像解码器:因子分解的乘性调制(factorized multiplicative modulation)与多尺度INR(multi-scale INRs),并基于此构建了一个当前最先进的连续图像生成对抗网络(continuous image GAN)。此前尝试将INR应用于图像生成的工作仅限于类似MNIST的数据集,难以扩展至复杂的真实世界数据。我们提出的INR-GAN架构使连续图像生成器的性能提升了数倍,显著缩小了连续图像GAN与基于像素的生成模型之间的性能差距。此外,我们还探索了基于INR的解码器所具备的若干令人振奋的特性,包括开箱即用的超分辨率能力、有意义的图像空间插值、低分辨率图像的加速推理、超出图像边界的外推能力,以及强大的几何先验。项目主页详见:https://universome.github.io/inr-gan。