2 个月前
LION:用于点云中3D物体检测的线性群RNN
Zhe Liu; Jinghua Hou; Xinyu Wang; Xiaoqing Ye; Jingdong Wang; Hengshuang Zhao; Xiang Bai

摘要
在大规模3D点云感知任务(如3D目标检测)中,变压器(Transformers)的优势受到其建模长程关系时二次计算成本的限制。相比之下,线性递归神经网络(RNNs)具有较低的计算复杂度,适用于长程建模。为此,我们提出了一种基于线性群组RNN(即对分组特征执行线性RNN)的简单而有效的窗口框架,用于精确的3D目标检测,称为LION。该方法的关键特性是在比基于变压器的方法更大的分组中实现充分的特征交互。然而,由于线性群组RNN在处理空间建模方面存在局限性,将其有效应用于高度稀疏点云中的3D目标检测并非易事。为了解决这一问题,我们引入了一个3D空间特征描述符,并将其集成到线性群组RNN操作符中,以增强其空间特征,而不是盲目增加体素特征的扫描顺序。为了进一步应对高度稀疏点云中的挑战,我们提出了一种3D体素生成策略来增加前景特征的密度,这得益于线性群组RNN作为自回归模型的自然属性。大量的实验验证了所提出的组件的有效性和我们的LION在不同线性群组RNN操作符(包括Mamba、RWKV和RetNet)上的泛化能力。此外,值得一提的是,我们的LION-Mamba在Waymo、nuScenes、Argoverse V2和ONCE数据集上达到了最先进的水平。最后但同样重要的是,我们的方法支持多种先进的线性RNN操作符(例如RetNet、RWKV、Mamba、xLSTM和TTT),并在小型但流行的KITTI数据集上提供了快速体验我们基于线性RNN的框架的机会。