
摘要
抓取任务在众多应用场景中至关重要,同时也是计算机视觉领域的一项挑战性问题。然而,在杂乱场景下,现有研究普遍面临训练数据不足以及缺乏统一评估基准的难题。为此,本文提出一个大规模的抓取位姿检测数据集,并配套一套统一的评估体系。该数据集包含97,280组RGB-D图像,涵盖超过十亿个抓取位姿。同时,我们的评估系统通过解析计算直接判断抓取是否成功,无需对所有抓取姿态进行 exhaustive(穷举式)真实标签标注,即可对任意类型的抓取姿态进行高效评估。此外,本文提出一种基于点云输入的端到端抓取位姿预测网络,其中采用解耦方式分别学习接近方向与操作参数。为进一步提升抓取的鲁棒性,我们设计了一种新型抓取亲和场(grasp affinity field)机制。通过大量实验验证,结果表明,所提出的数据集与评估体系能够与真实世界实验良好对齐,且所提出的网络在性能上达到了当前最优水平。本文所构建的数据集、源代码及预训练模型均已公开,可通过 www.graspnet.net 获取。