
摘要
学习生成自然场景一直是计算机视觉中的一个具有挑战性的任务。当生成过程基于视角差异极大的图像时,这一任务变得更加困难。这主要是因为跨视角理解和转换外观及语义信息并非易事。在本文中,我们尝试使用条件生成对抗网络(cGAN)解决一个新的问题——即不同视角下的图像合成,包括从航拍图到街景图以及反之的转换。为此,我们提出了两种新的架构,分别称为Crossview Fork(X-Fork)和Crossview Sequential(X-Seq),用于生成分辨率为64x64和256x256像素的场景。X-Fork架构包含一个判别器和一个生成器。生成器在目标视角下同时生成图像及其语义分割。X-Seq架构则利用了两个cGAN。第一个cGAN生成目标图像,然后将其输入第二个cGAN以生成相应的语义分割图。第二个cGAN的反馈有助于第一个cGAN生成更清晰的图像。我们提出的这两种架构不仅学会了生成自然图像,还学会了生成其对应的语义分割图。实验结果表明,与传统的仅考虑场景视觉外观的图像到图像翻译方法相比,我们的方法能够更好地捕捉并保持源视图和目标视图中物体的真实语义信息。广泛的定性和定量评估支持了我们框架的有效性,尤其是在处理视角差异极大的自然场景生成时,相较于两种最先进的方法表现更为优异。