HyperAIHyperAI
vor 15 Tagen

Ein ConvNet für die 2020er Jahre

Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie
Ein ConvNet für die 2020er Jahre
Abstract

Die „brüllenden 20er Jahre“ der visuellen Erkennung begannen mit der Einführung von Vision Transformers (ViTs), die sich rasch als state-of-the-art-Modell für die Bildklassifikation gegenüber ConvNets durchsetzten. Ein reiner ViT hingegen stößt bei der Anwendung auf allgemeine Aufgaben des Computer-Vision, wie Objekterkennung und semantische Segmentierung, auf erhebliche Schwierigkeiten. Erst hierarchische Transformers (beispielsweise Swin Transformers) haben mehrere Prioritäten von ConvNets wieder eingeführt, wodurch Transformers praktikabel als generische Vision-Backbone-Architektur wurden und beachtliche Leistungen in einer Vielzahl visueller Aufgaben zeigten. Dennoch wird die Effektivität solcher hybriden Ansätze nach wie vor überwiegend der inhärenten Überlegenheit von Transformers zugeschrieben, anstatt den spezifischen induktiven Vorurteilen der Faltungsoperationen. In dieser Arbeit untersuchen wir erneut den Gestaltungsraum und testen die Grenzen dessen, was ein reiner ConvNet leisten kann. Wir modernisieren schrittweise einen Standard-ResNet in Richtung der Architektur eines Vision Transformers und identifizieren dabei mehrere Schlüsselkomponenten, die zur Leistungsunterschieden beitragen. Das Ergebnis dieser Untersuchung ist eine Familie reiner ConvNet-Modelle, die unter dem Namen ConvNeXt bekannt geworden sind. Diese basieren ausschließlich auf herkömmlichen ConvNet-Modulen, erreichen in Bezug auf Genauigkeit und Skalierbarkeit vergleichbare Ergebnisse wie Transformers, erzielen eine ImageNet-Top-1-Accuracy von 87,8 % und schlagen Swin Transformers bei der Objekterkennung auf COCO sowie der Segmentierung auf ADE20K, wobei sie gleichzeitig die Einfachheit und Effizienz klassischer ConvNets bewahren.