13 天前
Perceiver:基于迭代注意力的通用感知
Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira

摘要
生物系统通过同时处理来自视觉、听觉、触觉、本体感觉等多种模态的高维输入来感知世界。相比之下,深度学习中使用的感知模型通常针对单一模态设计,往往依赖于特定领域的先验假设,例如几乎所有现有视觉模型所利用的局部网格结构。这些先验知识引入了有益的归纳偏置,但也使模型局限于单一模态。本文提出了一种名为Perceiver的新模型,该模型基于Transformer架构,因此对输入之间的关系施加了极少的结构假设,同时具备类似卷积神经网络(ConvNets)的可扩展性,能够处理数十万级别的输入。该模型采用一种非对称注意力机制,通过迭代方式将原始输入压缩至一个紧凑的潜在瓶颈表示,从而实现对超大规模输入的有效处理。实验表明,该架构在多种模态的分类任务中表现优异,可与现有强大多模态专用模型相媲美甚至超越,涵盖图像、点云、音频、视频以及视频+音频等多种数据类型。在ImageNet图像分类任务中,Perceiver无需使用二维卷积,仅通过直接关注50,000个像素即可达到与ResNet-50和ViT相当的性能。此外,在AudioSet音频分类任务中,Perceiver在所有模态上均展现出具有竞争力的表现。