8 个月前

摘要

近期，出现了许多旨在以无监督方式对场景进行分解和分割为多个对象的方法，即无监督多对象分割。实现这一任务一直是计算机视觉领域的长期目标，它有望在无需密集注释来训练分割模型的情况下解锁对象级别的推理能力。尽管取得了显著进展，但目前的模型主要是在视觉上较为简单的场景中开发和训练的，这些场景通常描绘的是单色物体置于纯背景之上。然而，自然界中的视觉环境要复杂得多，存在诸如多样化的纹理和复杂的光照效果等干扰因素。在这项研究中，我们提出了一种新的基准测试集——ClevrTex，设计用于比较、评估和分析算法。ClevrTex 包含了具有多样化形状、纹理和照片映射材料的合成场景，这些场景是通过基于物理的渲染技术创建的。该数据集包括 50,000 个示例，每个示例描绘了 3 到 10 个放置在背景上的物体，使用了包含 60 种材料的目录；此外还有一个测试集，包含 10,000 张图像，使用了 25 种不同的材料创建。我们在 ClevrTex 上对大量最近的无监督多对象分割模型进行了基准测试，并发现所有最先进方法在处理纹理丰富的场景时都未能学习到良好的表示，尽管它们在处理较简单数据时表现出色。我们还创建了 ClevrTex 数据集的不同变体，控制不同方面的场景复杂度，并探究当前方法各自的不足之处。数据集和代码可在 https://www.robots.ox.ac.uk/~vgg/research/clevrtex 获取。

源 PDF