HyperAIHyperAI

Command Palette

Search for a command to run...

Perceiver : Perception générale à l’aide d’une attention itérative

Andrew Jaegle Felix Gimeno Andrew Brock Andrew Zisserman Oriol Vinyals Joao Carreira

Résumé

Les systèmes biologiques perçoivent le monde en traitant simultanément des entrées de grande dimension issues de modalités aussi diverses que la vision, l’audition, le toucher, la proprioception, etc. En revanche, les modèles de perception utilisés en apprentissage profond sont conçus pour des modalités individuelles, et reposent souvent sur des hypothèses spécifiques au domaine, telles que les structures en grille locale exploitées par presque tous les modèles de vision existants. Ces biais inductifs sont utiles, mais contraignent les modèles à une seule modalité. Dans cet article, nous introduisons le Perceiver, un modèle fondé sur les Transformers, qui fait donc peu d’hypothèses architecturales sur les relations entre ses entrées, tout en étant capable de traiter des centaines de milliers d’entrées, comme les réseaux de convolution (ConvNets). Le modèle exploite un mécanisme d’attention asymétrique pour réduire itérativement les entrées en un goulot d’étranglement latente compact, ce qui lui permet d’échelle efficacement à des entrées très volumineuses. Nous montrons que cette architecture est compétitive ou supérieure à des modèles spécialisés performants sur des tâches de classification dans diverses modalités : images, nuages de points, audio, vidéos, et audio+vidéo. Le Perceiver atteint des performances comparables à celles de ResNet-50 et de ViT sur ImageNet, sans recourir à des convolutions 2D, en accédant directement à 50 000 pixels. Il se distingue également dans toutes les modalités sur AudioSet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Perceiver : Perception générale à l’aide d’une attention itérative | Articles | HyperAI