HyperAIHyperAI
il y a 15 jours

Un ConvNet pour les années 2020

Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie
Un ConvNet pour les années 2020
Résumé

Les années 2020 ont marqué l’essor du reconnaissances visuelles, inauguré par l’introduction des Vision Transformers (ViTs), qui se sont rapidement imposés comme les modèles d’image classification les plus performants. Toutefois, un ViT classique peine à s’appliquer efficacement à des tâches générales de vision par ordinateur telles que la détection d’objets ou la segmentation sémantique. Ce sont les Transformers hiérarchiques (par exemple, Swin Transformers) qui ont réintroduit plusieurs priorités des ConvNets, rendant les Transformers pratiquement utilisables comme squelette généraliste pour la vision, tout en démontrant des performances remarquables sur une large gamme de tâches. Pourtant, l’efficacité de ces approches hybrides est encore largement attribuée à l’avantage intrinsèque des Transformers, plutôt qu’aux biais inductifs propres aux convolutions. Dans ce travail, nous réexaminons les espaces de conception et explorons les limites atteignables par un ConvNet pur. Nous modernisons progressivement un ResNet standard vers la conception d’un Vision Transformer, en identifiant plusieurs composants clés qui contribuent à la différence de performance au fil du processus. Le résultat de cette exploration est une famille de modèles basés uniquement sur des ConvNets, baptisée ConvNeXt. Construits entièrement à partir de modules standards de ConvNet, les ConvNeXt rivalisent avantageusement avec les Transformers en termes d’exactitude et de scalabilité, atteignant une précision de 87,8 % sur ImageNet (top-1) et surpassant les Swin Transformers sur les tâches de détection d’objets (COCO) et de segmentation (ADE20K), tout en conservant la simplicité et l’efficacité des ConvNets classiques.

Un ConvNet pour les années 2020 | Articles de recherche récents | HyperAI