11 天前
MLCVNet:用于3D目标检测的多层级上下文投票网络
Qian Xie, Yu-Kun Lai, Jing Wu, Zhoutao Wang, Yiming Zhang, Kai Xu, Jun Wang

摘要
本文通过引入自注意力机制与多尺度特征融合,捕捉多层次的上下文信息,以解决三维物体检测任务。现有大多数三维物体检测方法通常独立识别各个物体,未充分考虑物体之间的上下文关系。相比之下,本文提出一种名为多层级上下文投票网络(Multi-Level Context VoteNet, MLCVNet)的新方法,基于当前最先进的VoteNet框架,实现对三维物体的关联式识别。我们分别在VoteNet的投票与分类阶段引入三个上下文模块,以编码不同层次的上下文信息。具体而言,首先在投票前引入点块间上下文模块(Patch-to-Patch Context, PPC),用于捕捉点云块之间的上下文关系,进而预测对应物体的中心点。随后,在候选框生成与分类阶段之前,引入物体间上下文模块(Object-to-Object Context, OOC),以建模物体候选之间的相互关系。最后,设计了全局场景上下文模块(Global Scene Context, GSC),用于学习整个场景的全局上下文信息。通过在点块、物体与场景三个层次上有效捕捉上下文信息,本方法显著提升了检测精度,在具有挑战性的三维物体检测数据集SUN RGB-D和ScanNet上均取得了新的最先进性能。相关代码已开源,地址为:https://github.com/NUAAXQ/MLCVNet。