2 个月前

UMIFormer:挖掘相似标记之间的关联以实现多视图3D重建

Zhenwei Zhu; Liying Yang; Ning Li; Chaohao Jiang; Yanyan Liang
UMIFormer:挖掘相似标记之间的关联以实现多视图3D重建
摘要

近年来,许多视频任务通过利用视觉变换器并建立空间-时间解耦来实现特征提取方面的突破。尽管多视角3D重建也面临多个图像作为输入的问题,但由于非结构化视图之间的关联完全模糊,这些成功无法立即被继承。在视频中存在的时间连贯性属性等可用先验关系,在此情况下并不存在。为了解决这一问题,我们提出了一种针对非结构化多图像(Unstructured Multiple Images, UMI)的新型变换器网络(UMIFormer)。该网络利用变换器模块进行解耦的视内编码,并设计了用于标记校正的模块,以挖掘不同视图中相似标记之间的相关性,从而实现解耦的视间编码。随后,所有从不同分支获得的标记被压缩成一个固定大小的紧凑表示形式,同时保留丰富的信息以供重建,这是通过利用标记之间的相似性来实现的。我们在ShapeNet上进行了实证研究,证实了我们的解耦学习方法适用于非结构化多图像。此外,实验结果还验证了我们的模型在很大程度上优于现有的最先进方法。代码将在https://github.com/GaryZhu1996/UMIFormer 提供。

UMIFormer:挖掘相似标记之间的关联以实现多视图3D重建 | 最新论文 | HyperAI超神经