2 个月前

UMIFormer：挖掘相似标记之间的关联以实现多视图3D重建

Zhenwei Zhu; Liying Yang; Ning Li; Chaohao Jiang; Yanyan Liang

摘要

近年来，许多视频任务通过利用视觉变换器并建立空间-时间解耦来实现特征提取方面的突破。尽管多视角3D重建也面临多个图像作为输入的问题，但由于非结构化视图之间的关联完全模糊，这些成功无法立即被继承。在视频中存在的时间连贯性属性等可用先验关系，在此情况下并不存在。为了解决这一问题，我们提出了一种针对非结构化多图像（Unstructured Multiple Images, UMI）的新型变换器网络（UMIFormer）。该网络利用变换器模块进行解耦的视内编码，并设计了用于标记校正的模块，以挖掘不同视图中相似标记之间的相关性，从而实现解耦的视间编码。随后，所有从不同分支获得的标记被压缩成一个固定大小的紧凑表示形式，同时保留丰富的信息以供重建，这是通过利用标记之间的相似性来实现的。我们在ShapeNet上进行了实证研究，证实了我们的解耦学习方法适用于非结构化多图像。此外，实验结果还验证了我们的模型在很大程度上优于现有的最先进方法。代码将在https://github.com/GaryZhu1996/UMIFormer 提供。