
摘要
从图像中分割未见过的物体是机器人需要掌握的一项关键感知技能。在机器人操作中,这项技能可以辅助机器人抓取和操控未见过的物体。均值漂移聚类是一种广泛应用于图像分割任务的方法。然而,传统的均值漂移聚类算法不具备可微性,这使得将其集成到端到端神经网络训练框架中变得困难。在这项工作中,我们提出了一种新的变压器架构——均值漂移掩码变换器(Mean Shift Mask Transformer, MSMFormer),该架构模拟了冯·米塞斯-费舍尔(von Mises-Fisher, vMF)均值漂移聚类算法,从而实现了特征提取器和聚类的联合训练与推理。其核心组件是一个超球面注意力机制,该机制在超球面上更新物体查询。为了证明我们方法的有效性,我们将MSMFormer应用于未见过物体实例分割任务。实验结果表明,MSMFormer在未见过物体实例分割方面取得了与现有最先进方法相当的性能。项目页面、附录、视频和代码可在以下网址获取:https://irvlutd.github.io/MSMFormer