8 个月前

摘要

本文提出了一种相似性感知融合网络（Similarity-Aware Fusion Network, SAFNet），用于自适应地融合二维图像与三维点云，以实现三维语义分割。现有的基于融合的方法通过整合多模态信息取得了显著的性能提升。然而，这些方法严重依赖于通过投影建立的二维像素与三维点之间的对应关系，且仅能以固定方式执行信息融合，导致其性能难以迁移到更真实的场景中——在这些场景中，采集的数据往往缺乏严格的成对特征以支持预测任务。为解决这一问题，我们采用了一种后融合策略：首先学习输入点云与由二维像素反投影得到的点云之间的几何相似性和上下文相似性，并利用这些相似性引导两种模态的融合，从而更充分地挖掘互补信息。具体而言，我们设计了一个几何相似性模块（Geometric Similarity Module, GSM），用于直接比较成对三维邻域的空间坐标分布；同时引入一个上下文相似性模块（Contextual Similarity Module, CSM），用于聚合并比较对应中心点的空间上下文信息。所提出的两个模块能够有效衡量图像特征对预测的辅助程度，从而使网络能够自适应地调整两种模态对每个点最终预测结果的贡献权重。在ScanNetV2基准数据集上的实验结果表明，SAFNet在不同数据完整性条件下均显著优于现有的最先进融合方法。

源 PDF