NBMOD:在嘈杂背景中快速定位并精准捕捉

抓取物体是机器人的一项基础且关键的能力,许多任务(如分拣与抓取)均依赖于此。实现稳定抓取的前提在于能够准确识别出合适的抓取位置。然而,由于物体形状多样、密度分布不均,以及不同物体质心(barycenter)之间存在显著差异,寻找理想的抓取点仍面临巨大挑战。近年来,研究人员提出了多种方法以应对上述问题,并在公开可用的数据集(如Cornell数据集和Jacquard数据集)上取得了优异的成果。然而,这些数据集的背景相对简单——通常仅为白色墙面,而真实操作环境中背景往往复杂且存在噪声。此外,在实际应用场景中,机器人通常只需抓取特定类型的物体。为解决上述问题,本文提出一个大规模抓取检测数据集——NBMOD(Noisy Background Multi-Object Dataset for Grasp Detection),该数据集包含20种不同水果的31,500张RGB-D图像,具有复杂背景与真实场景特征。在定向边界框检测任务中,角度的精确预测始终是一个难题。为此,本文提出一种旋转锚点机制(Rotation Anchor Mechanism, RAM),以提升角度估计的准确性。考虑到机器人系统对实时性的高要求,本文进一步设计了一系列轻量级网络架构,统称为RA-GraspNet(GraspNet with Rotation Anchor):包括RARA(含旋转锚点与区域注意力的网络)、RAST(含旋转锚点与半Transformer结构的网络)以及RAGT(含旋转锚点与全局Transformer结构的网络)。其中,RAGT-3/3模型在NBMOD数据集上的抓取检测准确率达到了99%。NBMOD数据集及相关代码已开源,访问地址为:https://github.com/kmittle/Grasp-Detection-NBMOD。