HyperAIHyperAI

Command Palette

Search for a command to run...

MLP-Mixer : une architecture entièrement basée sur les MLP pour la vision

Résumé

Les réseaux de neurones convolutifs (CNN) sont le modèle de référence en vision par ordinateur. Récemment, les architectures fondées sur l’attention, telles que le Vision Transformer, ont également gagné en popularité. Dans cet article, nous montrons que si les opérations de convolution et l’attention sont toutes deux suffisantes pour obtenir de bonnes performances, aucune d’entre elles n’est nécessaire. Nous introduisons MLP-Mixer, une architecture fondée exclusivement sur des perceptrons multicouches (MLP). MLP-Mixer comporte deux types de couches : l’un où des MLP sont appliqués indépendamment à chaque patch d’image (c’est-à-dire « mélangant » les caractéristiques locales), et l’autre où des MLP sont appliqués entre les patches (c’est-à-dire « mélangant » les informations spatiales). Lorsqu’entraîné sur de grands jeux de données ou avec des schémas modernes de régularisation, MLP-Mixer atteint des résultats compétitifs sur des benchmarks de classification d’images, tout en présentant un coût de pré-entraînement et d’inférence comparable aux modèles les plus avancés. Nous espérons que ces résultats stimuleront de nouvelles recherches au-delà des cadres établis des CNN et des Transformers.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp