2 个月前

4D 空间-时间卷积神经网络:Minkowski 卷积神经网络

Choy, Christopher ; Gwak, JunYoung ; Savarese, Silvio
4D 空间-时间卷积神经网络:Minkowski 卷积神经网络
摘要

在许多机器人技术和虚拟现实/增强现实(VR/AR)应用中,3D视频是现成的输入源(连续的深度图像序列或激光雷达扫描)。然而,这些3D视频通常以逐帧的方式通过2D卷积神经网络(ConvNets)或3D感知算法进行处理。在这项工作中,我们提出了一种4维卷积神经网络,用于时空感知,可以直接利用高维卷积处理此类3D视频。为此,我们采用了稀疏张量,并提出了广义稀疏卷积,该方法涵盖了所有离散卷积。为了实现广义稀疏卷积,我们创建了一个开源的自动微分库,为高维卷积神经网络提供了丰富的函数。我们使用该库构建了4D时空卷积神经网络,并在多个3D语义分割基准数据集以及为3D视频感知提出的4D数据集上对其进行了验证。为了克服4D空间中的挑战,我们提出了一种特殊的广义稀疏卷积——混合核(Hybrid Kernel),以及一种三边静止条件随机场(Trilateral-Stationary Conditional Random Field),后者在7维时空色度空间中强制执行时空一致性。实验结果表明,仅使用广义3D稀疏卷积的卷积神经网络可以大幅超越2D或2D-3D混合方法。此外,我们在3D视频上展示了4D时空卷积神经网络对噪声具有鲁棒性,在某些情况下优于3D卷积神经网络,并且比3D对应模型更快。

4D 空间-时间卷积神经网络:Minkowski 卷积神经网络 | 最新论文 | HyperAI超神经