6 个月前

摘要

在大多数现有的学习系统中，图像通常被视为二维像素阵列。然而，在一种日益流行的新范式中，二维图像被表示为隐式神经表示（Implicit Neural Representation, INR）——一种多层感知机（MLP），可根据像素的(x, y)坐标预测其RGB值。本文提出两种新颖的架构技术，用于构建基于INR的图像解码器：因子分解的乘性调制（factorized multiplicative modulation）与多尺度INR（multi-scale INRs），并基于此构建了一个当前最先进的连续图像生成对抗网络（continuous image GAN）。此前尝试将INR应用于图像生成的工作仅限于类似MNIST的数据集，难以扩展至复杂的真实世界数据。我们提出的INR-GAN架构使连续图像生成器的性能提升了数倍，显著缩小了连续图像GAN与基于像素的生成模型之间的性能差距。此外，我们还探索了基于INR的解码器所具备的若干令人振奋的特性，包括开箱即用的超分辨率能力、有意义的图像空间插值、低分辨率图像的加速推理、超出图像边界的外推能力，以及强大的几何先验。项目主页详见：https://universome.github.io/inr-gan。

源 PDF