2 个月前

长程分组变压器用于多视图3D重建

Yang, Liying ; Zhu, Zhenwei ; Lin, Xuxin ; Nong, Jian ; Liang, Yanyan
长程分组变压器用于多视图3D重建
摘要

如今,变压器网络在许多计算机视觉任务中展示了卓越的性能。在遵循这一范式的多视图3D重建算法中,自注意力机制需要处理包含大量信息的复杂图像标记,尤其是在面对大量的视图输入时。信息内容的诅咒导致模型学习极其困难。为了解决这一问题,最近的方法通过减少表示每个视图的标记数量或放弃不同视图之间标记的注意力操作来应对。显然,这些方法对性能产生了负面影响。因此,我们基于分而治之的原则提出了一种长程分组注意力(Long-Range Grouping Attention, LGA)机制。所有视图中的标记被分组进行独立的注意力操作。每个组中的标记从所有视图中采样,并能为其所在视图提供宏观表示。不同组之间的多样性保证了特征学习的丰富性。通过使用LGA连接视图间特征并利用标准自注意力层提取视图内特征,可以建立一个有效且高效的编码器。此外,还设计了一种新颖的渐进上采样解码器,用于生成相对高分辨率的体素。基于上述方法,我们构建了一个强大的基于变压器的网络,称为LRGT(Long-Range Grouping Transformer)。ShapeNet上的实验结果验证了我们的方法在多视图重建中达到了最先进的精度。代码将在以下地址公开:https://github.com/LiyingCV/Long-Range-Grouping-Transformer。

长程分组变压器用于多视图3D重建 | 最新论文 | HyperAI超神经