
摘要
深度学习方法在提升机器人抓取检测性能方面取得了显著成果。然而,通用目标检测中所采用的深度学习方法并不适用于机器人抓取检测任务。当前主流的目标检测模型难以在高精度与快速推理速度之间取得良好平衡。本文提出一种高效且鲁棒的全卷积神经网络模型,能够从真实抓取场景的n通道输入图像中直接完成抓取姿态估计。所提出的网络架构为单阶段轻量级生成式模型,专为抓取检测设计。具体而言,引入基于高斯核的抓取表示方法来编码训练样本,体现了最大化抓取中心点置信度的原则。同时,为有效提取多尺度特征并增强特征判别能力,我们在抓取检测架构的瓶颈层中集成了感受野块(Receptive Field Block, RFB)。此外,通过融合像素注意力与通道注意力机制,模型能够自动学习聚焦于不同形状与尺寸的上下文信息,抑制噪声特征,突出抓取目标特征。在Cornell和Jacquard两个公开抓取数据集上的大量实验表明,该方法在精度与推理速度之间实现了当前最优的平衡。所提网络模型的参数量比其他先进算法小一个数量级,同时在Cornell和Jacquard数据集上分别达到了98.9%和95.6%的准确率,性能更优。