
摘要
提出了一种基于深度学习的架构,用于预测机器人操作中可抓取的位置。该方法能够处理未检测到物体、检测到单个物体或多物体等多种场景。通过将学习问题定义为以零假设竞争(null hypothesis competition)方式进行分类,而非回归任务,该深度神经网络结合红、绿、蓝及深度(RGB-D)图像输入,可在单次推理中预测单个或多个物体的多个抓取候选位置。在Cornell数据集上的实验表明,该方法在图像级(imagewise)和物体级(object-wise)划分下分别达到了96.0%和96.1%的准确率,优于现有最先进方法。在多物体数据集上的评估进一步验证了该架构的泛化能力。实际抓取实验在一组家用物体测试集上实现了96.0%的抓取定位准确率和89.0%的抓取成功率。整个系统从图像输入到生成抓取规划的处理时间小于0.25秒,具备实时性。