
摘要
我们提出了一种名为INFERNO的方法,用于在无需依赖标注数据的情况下推断视觉场景中的以物体为中心的表征。该方法能够学习将场景分解为多个独立物体,每个物体均具有结构化的表征,能够解耦其形状、外观和三维姿态。为实现这一结构化表征,我们利用了近期神经三维渲染领域的进展。每个物体的表征定义了一个局部的神经辐射场(neural radiance field),通过可微分的渲染过程生成场景的二维视图。模型随后通过最小化输入图像与对应渲染场景之间的重建误差进行训练。实验结果表明,INFERNO能够在无监督条件下成功发现场景中的物体。我们进一步通过操控推断出的场景并观察渲染输出中的相应变化,验证了所学表征的可解释性。最后,我们在CATER数据集上展示了所学习的三维物体表征在视觉推理任务中的实际有效性。