
摘要
现实世界中广泛存在玻璃制成的透明物体,如窗户、玻璃瓶等。由于这些物体的外观高度依赖于背景图像,往往与周围环境具有极相似的视觉特征,因此对透明物体进行分割极具挑战性。此外,该任务本身技术难度较高,而此前专门针对此问题设计并收集的数据集数量极为有限,且大多数现有数据集存在明显缺陷:部分数据集样本量过小(例如仅有千张图像且缺乏人工标注),另一些则完全通过计算机图形学方法生成(即非真实图像)。为解决这一关键问题,本文提出一个大规模真实场景透明物体分割数据集——Trans10K,包含10,428张真实图像,并配有精细的人工标注,其规模是现有数据集的10倍。如图1所示,Trans10K中的透明物体在尺度、视角和遮挡程度上具有极高的多样性,因而极具挑战性。为评估Trans10K的有效性,本文进一步提出一种新颖的边界感知分割方法——TransLab,该方法利用边界信息作为关键线索,以提升透明物体的分割性能。大量实验与消融研究充分验证了Trans10K数据集的有效性,同时也证明了在TransLab中学习物体边界的实用价值。实验结果表明,TransLab显著优于20种近期基于深度学习的通用物体分割方法,凸显该任务目前仍远未被充分解决。我们相信,Trans10K与TransLab的提出,无论在学术研究还是工业应用层面均具有重要贡献,将有力推动未来相关领域的研究进展与实际落地。