HyperAIHyperAI
vor 7 Tagen

MogaNet: Multi-Order Gated Aggregation Network

Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li
MogaNet: Multi-Order Gated Aggregation Network
Abstract

Indem der Kernel so global wie möglich kontextualisiert wird, haben moderne ConvNets großes Potenzial bei Aufgaben der Computer Vision gezeigt. Allerdings offenbart der jüngste Fortschritt in Bezug auf mehrstufige spieltheoretische Wechselwirkungen innerhalb tiefer neuronaler Netze (DNNs) die Darstellungsbegrenzung moderner ConvNets, bei der die ausdrucksstarken Wechselwirkungen bei zunehmender Kernelgröße nicht effektiv kodiert werden. Um diese Herausforderung zu bewältigen, schlagen wir eine neue Familie moderner ConvNets vor, die als MogaNet bezeichnet wird, für die diskriminative Lernung visueller Darstellungen in rein convolutiven Netzarchitekturen mit vorteilhaften Komplexitäts-Leistungs-Abwägungen. MogaNet integriert konzeptionell einfache, jedoch effektive Faltungen sowie gatete Aggregation in ein kompaktes Modul, wodurch diskriminative Merkmale effizient erfasst und adaptiv kontextualisiert werden. MogaNet zeichnet sich durch hervorragende Skalierbarkeit, beeindruckende Parameter-Effizienz und wettbewerbsfähige Leistung im Vergleich zu den aktuellen Spitzenständen unter ViTs und ConvNets auf ImageNet und verschiedenen nachgeschalteten visuellen Benchmarks aus, darunter COCO-Objekterkennung, ADE20K-Semantische Segmentierung, 2D- und 3D-Human-Pose-Schätzung sowie Videovorhersage. Insbesondere erreicht MogaNet auf ImageNet-1K Genauigkeiten von 80,0 % und 87,8 % bei 5,2 Mio. und 181 Mio. Parametern, wobei es ParC-Net und ConvNeXt-L übertrifft, gleichzeitig jedoch 59 % FLOPs und 17 Mio. Parameter einspart. Der Quellcode ist unter https://github.com/Westlake-AI/MogaNet verfügbar.

MogaNet: Multi-Order Gated Aggregation Network | Neueste Forschungsarbeiten | HyperAI