Perceiver : Perception générale à l’aide d’une attention itérative

Les systèmes biologiques perçoivent le monde en traitant simultanément des entrées de grande dimension issues de modalités aussi diverses que la vision, l’audition, le toucher, la proprioception, etc. En revanche, les modèles de perception utilisés en apprentissage profond sont conçus pour des modalités individuelles, et reposent souvent sur des hypothèses spécifiques au domaine, telles que les structures en grille locale exploitées par presque tous les modèles de vision existants. Ces biais inductifs sont utiles, mais contraignent les modèles à une seule modalité. Dans cet article, nous introduisons le Perceiver, un modèle fondé sur les Transformers, qui fait donc peu d’hypothèses architecturales sur les relations entre ses entrées, tout en étant capable de traiter des centaines de milliers d’entrées, comme les réseaux de convolution (ConvNets). Le modèle exploite un mécanisme d’attention asymétrique pour réduire itérativement les entrées en un goulot d’étranglement latente compact, ce qui lui permet d’échelle efficacement à des entrées très volumineuses. Nous montrons que cette architecture est compétitive ou supérieure à des modèles spécialisés performants sur des tâches de classification dans diverses modalités : images, nuages de points, audio, vidéos, et audio+vidéo. Le Perceiver atteint des performances comparables à celles de ResNet-50 et de ViT sur ImageNet, sans recourir à des convolutions 2D, en accédant directement à 50 000 pixels. Il se distingue également dans toutes les modalités sur AudioSet.