
摘要
文本到点云的跨模态定位是一项新兴的视觉-语言任务,对于未来人机协作机器人系统具有重要意义。该任务旨在基于少量自然语言指令,从城市级规模的点云场景中定位目标位置。本文针对现有方法存在的两个关键局限性提出改进:其一,依赖于真实标注的实例作为输入;其二,忽视了潜在实例之间的相对空间关系。为此,我们提出一种两阶段框架,包括粗粒度阶段用于文本-单元检索,以及细粒度阶段用于精确位置估计。在两个阶段中,我们均引入了实例查询提取模块:该模块利用3D稀疏卷积U-Net对点云单元进行编码,生成多尺度点云特征,并通过一组查询迭代地关注这些特征,以表征各个实例。在粗粒度阶段,我们设计了一种行-列相对位置感知的自注意力模块(RowColRPA),用于捕捉实例查询之间的空间关系。在细粒度阶段,我们进一步提出一种多模态相对位置感知的交叉注意力模块(RPCA),能够融合文本与点云特征,并结合空间关系信息,从而提升精确定位性能。在KITTI360Pose数据集上的实验结果表明,所提模型在不依赖真实标注实例作为输入的前提下,仍能取得与当前最先进方法相媲美的性能表现。