16 天前

点云视频中的时空建模:4D Transformer网络

{Mohan Kankanhalli, Yi Yang, Hehe Fan}
点云视频中的时空建模:4D Transformer网络
摘要

点云视频在空间维度上表现出不规则性和无序性,不同帧之间的点分布不一致,呈现不稳定的出现模式。为了捕捉点云视频中的动态变化,通常采用点跟踪技术。然而,由于点在帧间可能不断流入或流出,准确计算点的运动轨迹极为困难。此外,传统跟踪方法通常依赖于点的颜色信息,因此难以处理无颜色的点云数据。为避免依赖点跟踪,本文提出一种新型的点云四维Transformer网络——P4Transformer,用于建模原始点云视频。具体而言,P4Transformer由两部分组成:(i)点云四维卷积模块,用于嵌入点云视频中蕴含的时空局部结构;(ii)基于Transformer的全局建模模块,通过在嵌入的局部特征上执行自注意力机制,捕捉视频中全局的外观变化与运动信息。在此框架下,相关或相似的局部区域通过注意力权重实现融合,而非依赖显式的点跟踪过程。在四个基准数据集上的大量实验,涵盖三维动作识别与四维语义分割任务,充分验证了P4Transformer在点云视频建模方面的有效性与优越性。

点云视频中的时空建模:4D Transformer网络 | 最新论文 | HyperAI超神经