HyperAIHyperAI

Command Palette

Search for a command to run...

Scaling Vision avec un Mélange Éparse d'Experts

Carlos Riquelme Joan Puigcerver Basil Mustafa Maxim Neumann Rodolphe Jenatton André Susano Pinto Daniel Keysers Neil Houlsby

Résumé

Les réseaux à Mélanges d'Experts à activation éparse (MoE) ont démontré une excellente scalabilité dans le traitement du langage naturel. En vision par ordinateur, en revanche, presque toutes les architectures performantes sont « denses », c’est-à-dire que chaque entrée est traitée par tous les paramètres. Nous présentons V-MoE, une version éparse du Vision Transformer, qui est à la fois scalable et compétitive avec les plus grands réseaux denses. Appliqué à la reconnaissance d’images, V-MoE atteint des performances équivalentes à celles des meilleurs réseaux actuels, tout en nécessitant jusqu’à seulement la moitié du calcul au moment de l’inférence. En outre, nous proposons une extension de l'algorithme de routage permettant de privilégier des sous-ensembles d’entrées sur l’ensemble du lot, ce qui donne lieu à un calcul adaptatif par image. Cela permet à V-MoE de réaliser un compromis fluide entre performance et coût computationnel au moment de l’évaluation. Enfin, nous démontrons le potentiel de V-MoE pour scaler les modèles visuels, et entraînons un modèle de 15 milliards de paramètres qui atteint 90,35 % sur ImageNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp