
摘要
图像分割是提供人类辅助和增强日常生活中自主性的关键任务。特别是,利用视觉和深度线索的RGB-D(红绿蓝-深度)分割因其能够比仅使用RGB方法提供更丰富的场景理解而受到越来越多的关注。然而,现有的大多数研究主要集中在语义分割上,因此留下了一个重要的空白。实例级别的RGB-D分割数据集相对稀缺,这限制了当前方法只能进行大致的类别区分,而无法完全捕捉到识别单个对象所需的细粒度细节。为填补这一空白,我们引入了三个实例级别的RGB-D分割基准数据集。这些数据集具有广泛的适用性,支持从室内导航到机器人操作等多种应用。此外,我们对这些基准数据集上的各种基线模型进行了详尽的评估。这一全面分析不仅揭示了它们的优势和不足,还为未来的研究指明了方向,以开发更加稳健和泛化的解决方案。最后,我们提出了一种简单而有效的方法来整合RGB-D数据。广泛的评估证实了我们方法的有效性,为实现更细致的场景理解提供了坚实的框架。