
摘要
受卷积神经网络(CNN)在图像识别领域取得的巨大成功的启发,基于视图的方法将CNN应用于3D对象理解中的投影视图建模,并取得了优异的性能。然而,多视图CNN模型无法对来自不同视图的补丁之间的通信进行建模,限制了其在3D对象识别中的有效性。鉴于视觉Transformer在图像识别方面最近取得的成功,我们提出了一种用于3D对象识别的多视图视觉Transformer(MVT)。由于Transformer块中的每个补丁特征都具有全局感受野,因此它能够自然地实现不同视图之间补丁的通信。同时,与CNN相比,它引入了较少的归纳偏置。为了兼顾有效性和效率,我们为MVT开发了一种全局-局部结构。我们在两个公开基准数据集ModelNet40和ModelNet10上的实验表明,我们的MVT具有竞争力的性能。