Scaling Vision avec un Mélange Éparse d'Experts

Les réseaux à Mélanges d'Experts à activation éparse (MoE) ont démontré une excellente scalabilité dans le traitement du langage naturel. En vision par ordinateur, en revanche, presque toutes les architectures performantes sont « denses », c’est-à-dire que chaque entrée est traitée par tous les paramètres. Nous présentons V-MoE, une version éparse du Vision Transformer, qui est à la fois scalable et compétitive avec les plus grands réseaux denses. Appliqué à la reconnaissance d’images, V-MoE atteint des performances équivalentes à celles des meilleurs réseaux actuels, tout en nécessitant jusqu’à seulement la moitié du calcul au moment de l’inférence. En outre, nous proposons une extension de l'algorithme de routage permettant de privilégier des sous-ensembles d’entrées sur l’ensemble du lot, ce qui donne lieu à un calcul adaptatif par image. Cela permet à V-MoE de réaliser un compromis fluide entre performance et coût computationnel au moment de l’évaluation. Enfin, nous démontrons le potentiel de V-MoE pour scaler les modèles visuels, et entraînons un modèle de 15 milliards de paramètres qui atteint 90,35 % sur ImageNet.