
摘要
在无监督对象表示学习方面取得的进展已经导致了多种无监督对象分割和可解释的对象中心场景生成方法的开发。然而,这些方法仅限于视觉复杂度有限的模拟数据集和真实世界数据集。此外,对象表示通常使用递归神经网络(RNNs)进行推断,但这些网络在处理大图像时扩展性较差;或者通过迭代细化来避免对图像中的对象施加不自然的顺序,但这需要预先初始化固定数量的对象表示。与现有范式不同,本研究提出了一种基于嵌入的方法,该方法使用随机断裂过程以可微的方式对像素嵌入进行聚类。类似于迭代细化,这种聚类过程也生成了随机排序的对象表示,但无需预先初始化固定数量的聚类。基于此方法,我们开发了一种新的模型——GENESIS-v2,该模型能够在不使用递归神经网络或迭代细化的情况下推断出可变数量的对象表示。实验结果表明,GENESIS-v2 在已建立的合成数据集以及更复杂的实际数据集上,在无监督图像分割和对象中心场景生成方面表现出色,优于近期的基线模型。