
摘要
从单张图像合成新视角是否需要几何模型?由于受局部卷积的限制,传统的卷积神经网络(CNN)必须引入显式的三维先验知识来建模几何变换。相比之下,我们证明了一种基于Transformer的模型能够在无需任何人工设计的三维先验的情况下,合成完全新颖的视角。这一成果得益于两个关键机制:(i)通过全局注意力机制隐式学习源视图与目标视图之间的长程三维对应关系;(ii)采用概率化建模方式,以捕捉从单张图像预测新视角时固有的不确定性,从而克服了以往方法仅适用于较小视角变化的局限性。我们系统评估了多种将三维先验融入Transformer架构的方式,但实验结果表明,实际上并不需要任何显式的几何先验,Transformer能够自主隐式地学习图像间的三维关系。此外,该方法在视觉质量方面超越了现有最先进水平,同时能够覆盖所有可能实现结果的完整分布。代码已开源,详见:https://git.io/JOnwn。