6 个月前

摘要

在自动驾驶和游戏系统中广泛使用的深度传感器通常输出三维点云数据。然而，由于这些传感器提供的点云缺乏结构化信息，使得现有系统难以利用依赖于传统卷积与池化操作的卷积神经网络（Convolutional Neural Networks, CNNs）的最新进展。类似于基于图像的卷积架构，近年来提出的图神经网络（Graph-based Architectures）能够在任意图结构上实现类似的滤波与池化操作。本文将此类图结构方法引入三维点云数据，提出一种通用的三维图向量表示方法，称为图三维（Graph 3D, G3D）。我们相信，本工作是首次在大规模三维点云数据上实现迁移学习，并在未见过的测试集上验证了所提出的三维点云显著潜在表示的强大判别能力。通过将我们提出的G3D网络（G3DNet）作为特征提取器，并将其生成的G3D特征向量与标准分类器结合，我们在ModelNet10数据集上取得了93.1%的准确率，在ModelNet40数据集上达到91.7%的准确率，创下图网络在该类任务中的最佳性能；同时在Sydney Urban Objects数据集上也取得了与现有方法相当的性能表现。该通用型特征提取器可作为即插即用组件，广泛应用于其他三维场景理解或目标跟踪相关研究中。

源 PDF 查看代码