
摘要
我们研究了从一组图像中恢复潜在三维形状的问题。现有的基于学习的方法通常依赖于递归神经网络(如GRU)或直观的池化操作(如最大池化/平均池化)来融合从输入图像编码的多个深度特征。然而,基于GRU的方法在面对同一组输入图像的不同排列时无法一致地估计三维形状,因为递归单元对排列具有敏感性。此外,由于GRU存在长期记忆损失的问题,当提供更多的图像时,也难以进一步优化三维形状。常用的池化方法仅限于捕捉部分信息(例如最大值/平均值),而忽略了其他有价值的特征。本文提出了一种新的前馈神经模块——AttSets,以及一种专门的训练算法——FASet,用于多视角三维重建中任意大小的深度特征集的注意力聚合。AttSets模块具有排列不变性、计算效率高且实现灵活的特点,而FASet算法则使得基于AttSets的网络表现出显著的鲁棒性,并能推广到任意数量的输入图像。我们在多个大型公开数据集上对FASet及其AttSets模块的特性进行了全面评估。大量实验表明,AttSets与FASet算法相结合,在性能上显著优于现有的聚合方法。